Skip to main content

Full text of "Probabilidad y Estadistica. Metodos y Ejercicios"

See other formats


PROBABILIDAD Y 
ESTADÍSTICA 

Aplicaciones y 
métodos 



George C. Canavos 

VIRGINIA COMMONWEALTH UNIVERSITY 



Traducción: 

Edmundo Gerardo Urbina Medal 
Departamento de Ingeniería Eléctrica 
UAM Ixtapalapa 

Revisión Técnica: 

Gustavo Javier Valencia Ramírez 
Doctor en Matemáticas 
Profesor Titular 
Departamento de Matemáticas 
Facultad de Ciencias 
UNAM 




MÉXICO • BUENOS AIRES • CARACAS • GUATEMALA 

LISBOA • MADRID • NUEVA YORK • PANAMÁ • SAN JUAN 

SANTAFÉ DE BOGOTÁ • SANTIAGO • SAO PAULO 

AUCKLAND • HAMBURGO • LONDRES • MILÁN • MONTREAL 

NUEVA DELHI • PARÍS • SAN FRANCISCO • SINGAPUR 

ST. LOUIS • SIDNEY • TOKIO • TORONTO 



PROBABILIDAD Y ESTADÍSTICA 
Aplicaciones y métodos 

Prohibida la reproducción total o parcial de esta obra, 
por cualquier medio, sin autorización escrita del editor. 

DERECHOS RESERVADOS © 1988. respecto a la primera edición en español por 
McGRAW-HILL/INTERAMERICANA DE MÉXICO, S.A. DE C.V. 

Atlacomulco 499-501, Frece. Industrial San Andrés Atoto 

53500 Naucalpan de Juárez, Edo. de México 

Miembro de la Cámara Nacional de la Industria Editorial, Reg. Núm. 1890 

ISBN 968-451-856-0 

Traducido de la primera edición en inglés de 

APPLIED PROBABILITY AND STATISTICAL METHODS 

Copyright © MCMLXXXIV, by George C, Canavos 
ISBN 0-316-12778-7 

1203456789 P.E.-87 9076543218 

Impreso en México Printed in México 

Esta Obra se termino de \ - 

iapónir »n Enero de 1998 en 
Pngrarnas Educativos, S.A. de C.V.- 
C*. Chabacano No. 65-A fcol Asturias' "" 

Delegación Cuati '-.*•?: t ,- . /-v-' >. - . , 

. CP. 06850 México. Of. --. ¡ : ,,,¿ -^ -, , , .-...-. .. ■ t,^ •. 

Empresa Cerificada por el ■■■».'..%•-,* ■' •• ;.-'.. - ; ■ >.■■■. 

Inmuto Mexicano de Normafeación ,- ■ ■ . .f, . 
y Certilicacion A.C. bajo la Norma 

ISO400Z:199«*IXCC-0 n 4:1995-* ; " ! ' 

con el Núm. de Registro nsc-04S ■•'.■■■■ 

Se tiraron 2500 ejemplares 



A mi madre, 

y a Alhena, Alexis y Costa 



Contenido 



CAPITULO UNO 



Introducción y estadística descriptiva 1 

1.1 Introducción 1 

1.2 Descripción gráfica de los datos 3 

1.3 Medidas numéricas descriptivas 1 1 

Referencia 22 

Ejercicios 22 

Apéndice: Sumatorias y otras notaciones simbólicas 25 



CAPITULO DOS 



Conceptos en probabilidad 28 

2.1 Introducción 28 

2.2 La definición clásica de probabilidad 29 

2.3 Definición de probabilidad como frecuencia relativa 30 

2.4 Interpretación subjetiva de la probabilidad 31 

2.5 Desarrollo axiomático de la probabilidad 32 

2.6 Probabilidades conjunta, marginal y condicional 36 

2.7 Eventos estadísticamente independientes 41 

2.8 El teorema de Bayes 43 

2.9 Permutaciones y combinaciones »45 

Referencias 48 
Ejercicios 48 



IX 



viii Contenido 
CAPÍTULO TRES 



Variables aleatorias y distribuciones de probabilidad 52 

3.1 El concepto de variable aleatoria 52 

3.2 Distribuciones de probabilidad de variables aleatorias discretas 53 

3.3 Distribuciones de probabilidad de variables aleatorias 
continuas 57 

3.4 Valor esperado de una variable aleatoria 62 

3.5 Momentos de una variable aleatoria 67 

3.6 Otras medidas de tendencia central y dispersión 75 

3.7 Funciones generadoras de momentos 80 

Referencias 84 
Ejercicios 84 



CAPÍTULO cuatro 

Algunas distribuciones discretas de probabilidad 88 

4.1 Introducción 88 

4.2 La distribución binomial 89 

4.3 La distribución de Poisson 100 

4.4 La distribución hipergeométrica 108 

4.5 La distribución binomial negativa 115 

Referencias 121 

Ejercicios 122 

Apéndice: Deducción de la función ?* probabilidad 

de Poisson 126 
Apéndice: Demostración del teorema 4.1 128 



CAPITULO CINCO 

Algunas distribuciones continuas de probabilidad 130 

5.1 Introducción 130 

5.2 La distribución normal 130 

5.3 La distribución uniforme 143 

5.4 La distribución beta 147 

5.5 La distribución gama 152 

5.6 La distribución de Weibull 159 



Contenido ix 



5.7 La distribución exponencial negativa 163 

5.8 La distribución de una función de variable aleatoria 167 

5.9 Conceptos básicos en la generación de números aleatorios 
por computadora 171 

5.9.1 Distribución uniforme sobre el intervalo (a, b) 173 

5.9.2 La distribución de Weibull 173 

5.9.3 La distribución de Erlang 174 

5.9.4 La distribución normal 174 

5.9.5 La distribución binomial 174 

5.9.6 La distribución de Poisson 175 

Referencias 175 

Ejercicios 1 75 

Apéndice: Demostración de que la expresión (5.1) es una función de 

densidad de probabilidad 181 
Apéndice: Demostración del teorema 5.1 182 



CAPITULO SEIS 

Distribuciones conjuntas de probabilidad 185 

6.1 Introducción 185 

6.2 Distribuciones de probabilidad bivariadas 185 

6.3 Distribuciones marginales de probabilidad 189 

6.4 Valores esperados y momentos para distribuciones bivariadas 191 

6.5 Variables aleatorias estadísticamente independientes 194 

6.6 Distribuciones de probabilidad condicional 197 

6.7 Análisis bayesiano: las distribuciones a priori y a posteríori 200 

6.8 La distribución normal bivariada 207 

Referencias 210 
Ejercicios 210 



CAPITULO SIETE 

Muestras aleatorias y distribuciones de muestreo 214 

7.1 Introducción 214 

7.2 Muestras aleatorias 214 

7.3 Distribuciones de muestreo de estadísticas 218 

7.4 La distribución de muestreo de X 209 

7.5 La distribución de muestreo de S 2 231 

7.6 La distribución t de Student 234 



x Contenido 

7.7 La distribución de la diferencia entre dos medias muéstrales 238 

7.8 La distribución F 240 ' 

Referencias 244 
Ejercicios 244 

Apéndice: Demostración del teorema central del limite 247 
Apéndice: Deducción de la Junción de densidad de 
probabilidad t de Student 249 



CAPÍTULO OCHO 

Estimación puntual y por intervalo 251 

8.1 Introducción 251 

8.2 Propiedades deseables de los estimadores puntuales 251 

8.2.1 Estimadores insesgados 255 

8.2.2 Estimadores consistentes 256 

8.2.3 Estimadores insesgados de varianza mínima 259 

8.2.4 Estadísticas suficientes 261 

8.3 Métodos de estimación puntual 264 

8.3.1 Estimación por máxima verosimilitud 264 

8.3.2 Método de los momentos 268 

83.3 Estimación por máxima verosimilitud para muestras censuradas 269 

8.4 Estimación por intervalo 271 

8.4.1 Intervalos de confianza para /¿ cuando se muestrea una 
distribución normal con varianza conocida 274 

8.4.2 Intervalos de confianza para fj. cuando se muestrea una 
distribución normal con varianza desconocida 277 

8.4.3 Intervalos de confianza para la diferencia de medias cuando 

se muestran dos distribuciones normales independientes 278 

8.4.4 Intervalos de confianza para a 2 cuando se muestrea una 
distribución normal con media desconocida 280 

8.4.5 Intervalos de confianza para el cociente de dos varianzas cuando 
se muestran dos distribuciones normales independientes 281 

8.4.6 Intervalos de confianza parad parámetro de proporción p N 
cuando se muestrea una distribución binomial 282 

8.5 Estimación bayesiaña 285 

8.5.1 Estimación puntual bayesiaña 286 

8.5.2 Estimación bayesiaña por intervalo 288 



Contenido xi 
8.6 Límites estadísticos de tolerancia 290 

8.6.1 Límites de tolerancia independientes de la distribución 290 

8.6.2 Límites de tolerancia cuando se muestrea 
una distribución normal 293 

Referencias 294 
Ejercicios 294 



CAPITULO NUEVE 



Prueba de hipótesis estadísticas 303 

9.1 Introducción 303 

9.2 Conceptos básicos para la prueba de hipótesis estadísticas 303 

9.3 Tipos de regiones críticas y la función de potencia 311 

9.4 Las mejores pruebas 314 

9.5 Principios generales para probar una H simple contra una H t 
uni o bilateral 321 

9.5.1 Principios generales para el caso 1 323 

9.5.2 Principios generales para él caso 2 324 

9.5.3 Principios generales para el caso 3 325 

9.6 Prueba de hipótesis con respecto a las medias cuando se 
muestrean distribuciones normales 326 

9.6.1 Pruebas para una muestra 327 

9.6.2 Pruebas para dos muestras 333 

9.6.3 Reflexión sobre las suposiciones y sensitividad 338 

9.6.4 Prueba sobre las medias cuando las observaciones 
están pareadas 340 

9.7 Pruebas de hipótesis con respecto a las varianzas cuando se 
muestrean distribuciones normales 346 

9.7.1 Pruebas para una muestra 346 

9.7.2 Pruebas para dos muestras 348 

9.8 Inferencias con respecto It las proporciones de dos 
distribuciones binomiales independientes 350 

Referencias 353 
Ejercicios 353 



XII ^UfllCfllUO 



CAPÍTULO DIEZ 



Pruebas de bondad de ajuste y análisis de tablas de contingencia 362 

10.1 Introducción 362 

10.2 La prueba de bondad de ajuste chi-cuadrada 363 

10.3 La estadística de Kolmogorov-Smirnov 368 

10.4 La prueba chi-cuadrada para el análisis de tablas de 
contingencia con dos criterios de clasificación 370 
Referencias 374 

Ejercicios 374 



CAPÍTULO ONCE 



Métodos para el control de calidad y muestreo para aceptación 379 

11.1 Introducción 379 

11.2 Tablas de control estadístico 379 

11.2.1 Tablas X (media conocida de la población) 381 

11.2.2 Tablas S (desviación estándar conocida de la población) 383 

11.2.3 Tablas Xy S (media y varianza desconocidas de la población) 384 

11.3 Procedimientos del muestreo para aceptación 388 

11.3.1 El desarrollo de planes de muestreo sencillos para riesgos 
estipulados del productor y del consumidor 392 

11.3.2 Muestreo para aceptación por variables 393 

11.3.3 Sistemas de planes de muestreo 396 
Referencias 396 

Ejercicios 397 



CAPÍTULO DOCE v 

Diseño y análisis de experimentos estadísticos , ,401 

12.1 Introducción 401 

12.2 Experimentos estadísticos 401 

12.3 Diseños estadísticos 403 



Contenido xiii 



12.4 Análisis de experimentos unifactoriales en un diseño 
completamente aleatorio 404 

12.4.1 Análisis de varianza para un modelo de efectos fijos 407 

12.4.2 Método de Scheffé para comparaciones múltiples 413 

12.4.3 Análisis de residuos y efectos de la violación de 
las suposiciones 415 

12.4.4 El caso de efectos aleatorios 418 

12.5 Análisis de experimentos con sólo un factor en un diseño en bloque 
completamente aleatorizado 420 

12.6 Experimentos factoriales 426 

Referencias 435 
Ejercicios 435 



CAPÍTULO TRECE 



Análisis de regresión: el modelo lineal simple 443 

13.1 Introducción 443 

13.2 El significado de la regresión y suposiciones básicas 444 

13.3 Estimación por mínimos cuadrados para el modelo lineal simple 448 

13.4 Estimación por máxima verosimilitud para 
el modelo lineal simple 45S 

13.5 Propiedades generales de los estimadores de mínimos cuadrados 457 

13.6 Inferencia estadística para el modelo lineal simple 465 

13.7 El uso del análisis de varianza 470 

13.8 Correlación lineal 477 

13.9 Series de tiempo y autocorrelación 479 

13.9.1 Componentes de una serie de tiempo 479 

13.9.2 La estadística de Durbin-Watson 480 

13.9.3 Eliminación de la autocorrelación mediante la transformación 
de datos 485 . ■' • 

13.10 Enfoque matricial para el modelo lineal simple 488 

Referencias 491 

Ejercicios 491 

Apéndice: Breve revisión del álgebra de matrices 497 



júv Contenido 
CAPÍTULO CATORCE 



Análisis de regresión: el modelo lineal general 

14.1 Introducción 503 

14.2 El modelo lineal general 503 

14.3 Principio de la suma de cuadrados extra 513 

14.4 El problema de la multicolinealidad 520 

14.5 Determinación del mejor conjunto de variables de predicción 525 

14.6 Análisis de residuos o residuales 532 

14.7 Regresión polinomial 538 

14.8 Mínimos cuadrados con factores de peso 547 

14.9 Variables indicadoras 556 

Referencias 563 
Ejercicios 563 



CAPITULO QUINCE 



Métodos no paramétricos 572 

15.1 Introducción 572 

15.2 Pruebas no paramétricas para comparar dos poblaciones con base en 
muestras aleatorias independientes 574 

15.2.1 Prueba de Mann-Whitney 574 

15.2.2 Prueba de tendencias de Wald-Wolfowitz 577 

15.3 Pruebas no paramétricas para observaciones por pares 578 

15.3.1 La prueba del signo 579 

15.3.2 Prueba de rangos de signos de Wilcoxon 580 

í 15.4 Prueba de Kruskal-Wallis para £ muestras aleatorias independientes 582 

15.5 Prueba de Friedman para k muestras igualadas 584 - 

¿15.6 Coeficiente de correlación de rangos de Spearman 586 

15.7 Comentarios finales 588 

'r.' fr-Tí -'■•■ .-,••■ 

r- Referencias 589 
i-¡ Ejercicios 589 



Contenido xv 



APÉNDICE 593 



TABLA A Valores de la función de distribución acumulativa binomial 594 
TABLA B Valores de la función de distribución acumulativa de Poisson 602 
TABLA C Valores de las funciones de probabilidad y de distribución 

acumulativa para la distribución hipergeométrica 610 
TABLA D Valores de la función de distribución acumulativa 

normal estándar 616 
TABLA E Valores de cuantiles de la distribución chi-cuadrada 619 
TABLA F Valores de cuantiles de la distribución t de Student 621 
TABLA G Valores de cuantiles de la distribución F 623 
TABLA H ^-valores para los límites de tolerancia bilaterales cuando se 

muestrean distribuciones normales 629 
TABLA I ^-valores para los límites de tolerancia unilaterales cuando se 

muestrean distribuciones normales 631 
TABLA J Valores de cuantiles superiores de la distribución de 

la estadística D n de Kolmogorov-Smirnov 633 
TABLA K Límites de la estadística de Durbin-Watson 635 



Respuestas a los ejercicios seleccionados de número impar 636 
índice 647 



Prefacio 



Este libro se planeó como una introducción a la teoría de la probabilidad y a la infe- 
rencia estadística, para toda persona interesada en las disciplinas aplicadas; econo- 
mía y finanzas, ingeniería y ciencias físicas y de la vida. No es necesario ningún co- 
nocimiento previo de probabilidad y estadística, aunque se espera que el lector se 
encuentre familiarizado con los fundamentos del cálculo diferencial e integral. El 
libro hace hincapié en las aplicaciones. El rigor matemático se emplea únicamente 
con el fin de exponer las bases de la probabilidad y de la estadística, lo que, en opi- 
nión del autor, es un ingrediente necesario para la aplicación efectiva de los méto- 
dos. El texto intenta proporcionar al estudiante un conocimiento que vaya más allá 
de lo superficial, sin abrumarlo con teoría excesiva. En este sentido, la obra brinda 
la oportunidad de reforzar el "porqué", además de presentarle el "cómo" de la 
aplicación. 

A través del texto, cada concepto o método se ilustra con ejemplos reales que se 
expresan de manera que el lector pueda obtener una comprensión intuitiva del con- 
cepto. La mayor parte del desarrollo de la inferencia estadística se fundamenta en el 
punto de vista de la teoría del muestreo. También se explora el enfoque bayesiano 
para dar la perspectiva adecuada. Asimismo, se estudian las suposiciones de los méto- 
dos estadísticos y se dan respuestas a preguntas del tipo "qué pasa si..." Además, en 
muchos ejemplos se emplearon paquetes de programas para computadora y técnicas 
de simulación, con el propósito de ilustrar y reforzar los puntos presentados. 

El material que abarca el libro demuestra ser suficiente para realizar un curso de 
dos semestres sobre probabilidad y métodos estadísticos. Por otra parte, es posible re- 
ordenar el material y asi ofrecer variedad de cursos, como un curso de un semestre 
sobre distribuciones de probabilidad y sus aplicaciones, en el que se empleen los ca- 
pítulos 1 a 7; un curso de dos trimestres sobre los fundamentos de la probabilidad y 
de los métodos estadísticos, con los capítulos 1 a 10; o un curso en análisis de varian- 
za y métodos de regresión, con los capítulos 9, 12, 13 y 14. El alcance de los temas 
que se tratan es amplio, extenso y proporcionan al profesor la oportunidad de recal- 
car ciertos temas u omitir otros. Que el libro pueda emplearse a nivel licenciatura o a 
nivel de graduados, depende tanto de las necesidades particulares como de los cono- 
cimientos previos de los lectores. 

Después de un análisis razonablemente completo sobre la estadística descrip- 
tiva (Cap. 1), el libro está dividido en probabilidad (Caps. 2-7) y métodos esta- 



A»n» / /C/UCJO 



dísticos (Caps. 8-15). En los capítulos 2 y 3 se presentan los conceptos básicos de 
probabilidad, variable aleatoria y distribución de probabilidad. Los capítulos 4 y 5 
contienen una exposición bastante completa de las distribuciones de probabilidad 
discretas y continuas, así como sus aplicaciones. En estos capítulos se investigan, 
comparan y contrastan propiedades de distribuciones como la binomial, de Poisson, 
normal, beta, gama y de Weibull, entre otras, proporcionando áreas de aplicación 
para cada una. Dado el creciente papel de las computadoras y las técnicas de simula- 
ción, se dedica una sección del capítulo 5 a la valoración de varios métodos de gene- 
ración de valores aleatorios, en cada una de las distribuciones estudiadas. En el 
capítulo 6 se exponen las distribuciones de probabilidad conjunta y condicional. En 
este contexto, se introducen los conceptos de distribuciones a priori y a posteriori, 
para el punto de vista bayesiano. 

El capítulo siete funciona como transición entre la probabilidad y la inferencia 
estadística. En éste se plantean los importantes conceptos de muestra aleatoria y dis- 
tribución de muestreo. En el capítulo 8 se presentan los métodos de estimación, 
tanto puntual como de intervalo. También se estudian los límites de tolerancia inde- 
pendientes de la distribución y aquéllos cuyo fundamento es la distribución normal. 
En el capítulo 9 se exploran las bases de la inferencia estadística y se presentan 
las pruebas de hipótesis para medias, varianzas y proporciones. El capítulo 10 de- 
talla el uso de la distribución chi-cuadrada, tanto para determinar la bondad del 
ajuste, como para tablas de contingencia, mientras que el capítulo 11 introduce al 
lector en los conceptos básicos del control de calidad estadístico y a los procedimien- 
tos para aceptar una muestra. En el capítulo 12 se presentan el diseño de experimentos 
estadísticos y el análisis de varianza, tanto para experimentos de un solo factor 
como para dos. En los capítulos 13 y 14 se trata, de manera prolija, el análisis de 
regresión; además, se examinan con detalle temas como: errores autocorrelaciona- 
dos, análisis de residuos, mínimos cuadrados con factores de peso, multicolineali- 
dad y distintas formas para determinar el mejor conjunto de variables de predicción. 
Al concluir, el capítulo 15 explora y compara algunos de los procedimientos no 
paramétricos más útiles. 

Al final del capítulo 1 y del 13 se encuentra un apéndice en que se revisa la no- 
tación sumatoria y del álgebra matricial. Las demostraciones de los teoremas más 
importantes se encuentran, para los lectores cuyas inclinaciones son más hacia la 
teoría, en los apéndices de los capítulos 4, 5 y 7. En el apéndice del libro se encuen- 
tran once tablas estadísticas. Se intentó, hasta donde fue posible, uniformar la 
estructura de éstas; por ejemplo, se encuentran tabulados valores para las distri- 
buciones binomial, de Poisson, hipergeométrica y normal, además de los valo- 
res cuantiles para las distribuciones chi-cuadrada, t de Student y F. Las tablas para 
las distribuciones anteriores, excepto la hipergeométrica, se generaron mediante al- 
gunas subrutinas del paquete IMSL (International Mathematical and Statistical Li- 
braries). La similitud con las tablas estadísticas, ya establecidas, es excelente. Los 
paquetes para computadora Minitab y SAS {Statistical Analysis System) se emplea- 
ron con objeto de ilustrar las técnicas del análisis de regresión (Caps. 13 y 14). Se 
supone que el lector tiene acceso a algunos de estos paquetes o a otros similares, 
como el SPSS (Statistical Packagefor the Social Sciences) y BMDP (Biomedical 
Programs). 



Prefacio xix 

Deseo agradecer a todas las personas que por muchos años, y de una forma y 
otra, desempeñaron un papel directo o indirecto para que este libro fuese posible; en 
particular, al Departamento de Estadística del Virginia Polytechnic Institute y de la 
State University, donde aprendí estadística por primera vez; al NASA's Langley Re- 
search Center, donde se me dio la oportunidad de continuar mis estudios de estadís- 
tica, y a la Virginia Commonwealth University, donde generalmente enseño 
estadística. También deseo agradecer la ayuda de John Koutrouvelis, del Departa- 
mento de Ciencias Matemáticas de la Virginia Commonwealth University, pues con 
sus críticas contribuyó de manera significativa en los capítulos sobre probabilidad. 
Además, extiendo mi gratitud a las siguientes personas, quienes me proporcionaron 
sugerencias muy útiles durante todas las etapas del desarrollo del manuscrito: Arlene 
S. Ash, de la Boston University; Bruce K. Blaylock, del Virginia Polytechnic Institute 
y de la State University; George W. Brown, de la University of California, en Irvine; 
Donald R. Burleson, del Rivier College; John M. Burt, de la University of New 
Hampshire; Dean H. Fearn, de la California State University en Hayward; Richard 
H. Lavoie, del Providence College; Stephen Meeks, de la Boston University; Chester 
Piascik, del Bryant College; Ramona L. Trader, de la University of Maryland, y 
George D. Weiner, de la Cleveland State University. 

Extiendo también mi aprecio a Carolyn England, K.W. Hall y Jamie Stokes, 
quienes compartieron la labor de escribir todas las versiones del manuscrito. Gra- 
cias, de manera especial, al grupo editorial de Little, Brown and Company, y en par- 
ticular a Elizabeth Schaaf por su valiosa ayuda. Por último deseo agradecer a mi 
familia su paciencia, c omprensión y al iento durante el tiempo en que escribí el libro. 

George C. Canavos 



CAPITULO UNO 



Introducción y 
estadística descriptiva 



1.1 Introducción 

Para mucha gente, estadística significa descripciones numéricas. Esto puede verifi- 
carse fácilmente al escuchar, un domingo cualquiera, a un comentarista de televisión 
narrar un juego de fútbol. Sin embargo, en términos más precisos, la estadística es el 
estudio de los fenómenos aleatorios. En este sentido la ciencia de la estadística tiene, 
virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de dis- 
ciplinas que van desde las ciencias y la ingeniería hasta las leyes y la medicina. El as- 
pecto más importante de la estadística es la obtención de conclusiones basadas en los 
datos experimentales. Este proceso se conoce como inferencia estadística. Si una 
conclusión dada pertenece a un indicador económico importante o a una posible 
concentración peligrosa de cierto contaminante, o bien, si se pretende establecer una 
relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la 
conclusión esté basada en la inferencia estadística. 

Para comprender la naturaleza de la inferencia estadística, es necesario entender 
las nociones de población y muestra. La población es la colección de toda la posible 
información que caracteriza aun fenómeno. En estadística, población es un concep- 
to mucho más general del que tiene la acepción común de esta palabra. En este senti- 
do, una población es cualquier colección ya sea de un número finito de mediciones o 
una colección grande, virtualmente infinita, de datos acerca de algo de interés. Por 
otro lado, la muestra es un subconjunto representativo seleccionado de una pobla- 
ción. La palabra representativo es la clave de esta idea. Una buena muestra es 
aquella que refleja las características esenciales de la población de la cual se obtuvo. 
En estadística, el objetivo de las técnicas de muestreo es asegurar que cada observa- 
ción en la población tiene una oportunidad igual e independiente de ser incluida en 
la muestra. Tales procesos de muestreo conducen a una muestra aleatoria. Las ob- 
servaciones de la muestra aleatoria se usan para calcular ciertas características de la 
muestra denominadas estadísticas. Las .estadísticas se usan como base para hacer in- 
ferencias acerca de ciertas características de la población, que reciben el nombre de 



2 Introducción y estadística descriptiva 

parámetros. Así, muchas veces se analiza la información que contiene una muestra 
aleatoria con el propósito principal de hacer inferencias sobre la naturaleza de la 
población de la cual se obtuvo la muestra. 

En estadística la inferencia es inductiva porque se proyecta de lo específico 
(muestra) hacia lo general (población). En un procedimiento de esta naturaleza 
siempre existe la posibilidad de error. Nunca podrá tenerse el 100% de seguridad 
sobre una proposición que se base en la inferencia estadística. Sin embargo, lo que 
hace que la estadística sea una ciencia (separándola del arte de adivinar la fortuna) es 
que, unida a cualquier proposición, existe una medida de la confiabilidad de ésta. 
En estadística la confiabilidad se mide en términos de probabilidad. En otras pa- 
labras, para cada inferencia estadística se identifica la probabilidad de que la infe- 
rencia sea correcta. 

Los problemas estadísticos se caracterizan por los siguientes cuatro elementos: 

1 . La población de interés y el procedimiento científico que se empleó para mues- 
trear la población. 

2. La muestra y el análisis matemático de su información. 

3. Las inferencias estadísticas que resulten del análisis de la muestra. 

4. La probabilidad de que las inferencias sean correctas. 

El enfoque precedente para la inferencia estadística descansa únicamente en 
la evidencia muestral. Éste es denominado teoría del muestreo o enfoque clásico de la 
inferencia estadística y para la mayor parte de ésta, será el que se tome en este libro. 
Sin embargo, también se tratará de incorporar ocasionalmente otro punto de vista 
conocido como inferencia bayesiana. Esta forma de abordar la inferencia estadística 
utiliza la combinación de la evidencia muestral con otra información, generalmente 
proporcionada por el investigador del problema. Tal información descansa de ma- 
• ñera fundamental en la convicción o grado de creencia del investigador con respecto 
a las mcertidumbres del problema, antes de que se encuentre disponible la evidencia 
muestral. Este grado de creencia puede basarse en consideraciones como los resulta- 
dos conocidos, que son producto de investigaciones previas. Es importante que el 
lector comprenda que el objetivo de los procedimientos clásico y bayesiano descansa 
en la evaluación de las incertidumbres basadas en la probabilidad. 

Para comprender la esencia del muestreo aleatorio y de la inferencia estadística, 
es necesario entender como primer punto, la naturaleza de una población en el con- 
texto de la probabilidad y de los modelos probabilísticos. Estos temas se examinan 
con detalle en los capitulos dos a seis. 

Este capítulo tratará brevemente las estadísticas descriptivas. A pesar de que és- 
tas son sencillas desde el punto de vista matemático, son valiosas en casos donde, se 
encuentra disponible la población completa y no existe incertidumbre, o cuando 
se tienen a la mano grandes conjuntos de datos que pueden o no considerarse como 
muestras aleatorias. Si un conjunto grande se considera como muestra aleatoria <le 
una población, la estadística descriptiva puede ir tan lejos como la distribución gene- 
ral de valores, al dar una evidencia empírica y otras características de la población. 
Esta evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones que 
deben formularse en la aplicación de la inferencia estadística. 



1.2 Descripción gráfica de los datos 3 

1.2 Descripción gráfica de ios datos 

Una descripción informativa de cualquier conjunto de datos está dada por la fre- 
cuencia de repetición u arreglo distribucional de las observaciones en el conjunto. 
Para apreciar lo necesario de un resumen de datos, considere el ejemplo del Servicio 
de Hacienda Interno (SHI) que se encarga de recibir y procesar millones de declara- 
ciones de ingresos durante todo el año. Es dudoso que el SHI pueda descubrir los 
patrones ocultos de ingresos e impuestos examinando simplemente la información 
contenida en las declaraciones. Similarmente, el Departamento del Censo no podría 
avanzar mucho al analizar los datos del censo, si éstos no pudiesen visualizarse. Para 
identificar los patrones en un conjunto de datos es necesario agrupar las observa- 
ciones en un número relativamente pequeño de clases que no se superpongan entre sí, 
de tal manera que no exista ninguna ambigüedad con respecto a la clase a que perte- 
nece una observación en particular. El número de observaciones en una clase recibe 
el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase 
con respecto al número combinado de observaciones en todas las clases se conoce 
como la frecuencia relativa de esa clase. Las fronteras de la clase se denominan 
límites, y el promedio aritmético entre los límites superior e inferior recibe el nombre 
de punto medio de la clase. Al granearse las frecuencia relativas de las clases contra 
sus respectivos intervalos en forma de rectángulos, se produce lo que comúnmente 
se conoce como histograma de frecuencia relativa o distribución de frecuencia relati- 
va. Esta última es la que puede hacer evidentes los patrones existentes en un conjun- 
to de datos. 

Como ilustración, los datos de la tabla 1.1 representan las frecuencias de unidades 
vendidas por día de un determinado producto por una compañía. El histograma de 
frecuencia relativa se construye graneando en el eje vertical la frecuencia relativa y 
en el* eje horizontal las fronteras inferiores de cada clase, como se ilustra en la fi- 
gura 1.1. 

El número de clases que se emplea para clasificar los datos en un conjunto de- 
pende del total de observaciones en éste. Si el número de observaciones es relativa- 
mente pequeño, el número de clases a emplear será cercano a cinco, pero general- 



TABLA 1.1 Frecuencias para el 


número de unidades vendidas de cierto producto 


Número de unidades 


Frecuencia de 




vendidas (Clase) 


la clase 


Frecuencia relativa 


80-89 


7 


7/100 = 0.07 


90-99 


20 


20/100 = 0.20 


100-109 


5 


5/100 = 0.05 


110-119 


11 


11/100 = 0.11 


120-129 


11 


11/100 = 0.11 


130-139 


12 


12/100 = 0.12 


140-149 


6 


6/100 = 0.06 


150-159 


23 


23/100 = 0.23 


160-169 


5 


5/100 '= 0.05 


Total 


.100 


1.00 



4 Introducción y estadística descriptiva 























0.20 

c« 

■3 0.15 

u 

CS 














o 












S 0.10 














0.05 


— ^^ 



















80 90 100 110 120 130 140 150 
Número de unidades vendidas 



160 170 



FIGURA 1.1. Histograma de frecuencia relativa para el número de unidades vendidas 



mente nunca menor que este valor. Si existe una cantidad sustancial de datos, el nú- 
mero de clases debe encontrarse entre ocho y doce y generalmente no existirán más 
de 15 clases. Un número muy pequeño de clases puede ocultar la distribución real del 
conjunto de datos, mientras que un número muy grande puede dejar sin observa- 
ciones a algunas de las clases, limitando de esta forma su uso. A manera de ilustra- 
ción, si se reducen las nueve clases a sólo tres, en el ejemplo anterior, como se indica 
en la tabla 1.2, el histograma de frecuencia relativa resultante (Fig. 2) es muy dife- 
rente al mostrado en la figura 1.1. 

Una buena practica es la creación de clases que tengan una longitud igual. Esto 
puede lograrse tomando la diferencia entre los dos valores extremos del conjunto de 
datos y dividiéndola entre el número de clases; el resultado será aproximadamente la 
longitud del intervalo para cada clase. Sin embargo, existen casos donde esta regla 
no puede o no debe aplicarse. Por ejemplo, si se tuviera a la mano la lista de impues- 
tos de SHI pagados por la población en un año, estas cantidades pueden encontrarse 



TABLA 1.2 Frecuencia para el número de unidades vendidas de cierto producto 



Número de unidades 
vendidas (Cíase) 



Frecuencia de 
la clase 



Frecuencia relativa 



80-109 
1 10-139 
140-Í69 

Total 



32 
34 
34 

100 



32/100 =■ 0.32 
34/100 = 0.34 
34/100 = 0.34 

1.00 



1.2 Descripción gráfica de los datos 5 



■5 0.3 



"53 



u 0.2 



c 

u 

3 



? 0.1 



tu, 



-l i 



80 110 140 170 
Número de unidades vendidas 



FIGURA 1.2 Histograma modificado para el número de unidades vendidas 



en un intervalo de $0 a $1 000 000. Aun a pesar de que se eligiesen 20 clases para la 
distribución de frecuencia relativa, con intervalos de igual longitud, cada clase 
tendría una cobertura de $50 000. Lo anterior daría origen a una situación en la que 
casi todas las observaciones caerían en la primera clase. Para casos como éste es pre- 
ferible seleccionar una escala más pequeña en el extremo inicial que la utilizada para 
el extremo superior. Esta elección aclarará el patrón de la distribución. 
Los siguientes ejemplos ilustran estos conceptos. 

Ejemplo 1.1 De acuerdo con la revista Informes al Consumidor en su número de 
febrero de 1980, las cuotas anuales de 40 compañías para un seguro de $25 000 para 
hombre de 35 años de edad son las siguientes: 



$ 82 


85 


86 


87 


87 


89 


89 


90 


91 


91 


92 


93 


94 


95 


95 


95 


95 


95 


97 


98 


99 


99 


100 


100 


101 


101 


103 


103 


103 


104 


105 


105 


106 


107 


107 


107 


109 


110 


110 


111 



Establecer un esquema de agrupamiento para este conjunto de datos y determinar 
las frecuencias relativas. 



Dado que la diferencia entre los dos valores extremos del conjunto es de sólo 
$29, puede ser razonable agrupar los datos en clases con intervalos de igual longitud. 
Supóngase que se decide utilizar seis clases; entonces el intervalo de cada clase será 
aproximadamente de $5. Para establecer las fronteras de cada clase, es necesario 
considerar la unidad más cercana con respecto a la cual se miden las observaciones. 
En este ejemplo las cuotas se presentan redondeadas al dólar más cercano. Con toda 
seguridad el importe de las cuotas es conocido hasta centavos, pero sólo se presentan 



itQ I Arar 



i/\r\c 



imIa 1*i 



»^*o A*± «Q1 o*j 



léafnrati swit- 



io/iiO 



entre $81.50 y $82.49, las seis clases con sus respectivas fronteras son (81.5-86.5), 
(86.5-91.5), (91.5-95.5), (96.5-101.5), (101.5-106.5) y (106.5-111.5). 

Estas fronteras también se conocen como los límites verdaderos debido a que 
reflejan la unidad más pequeña que se emplea para tomar las observaciones. Dado 
que las cuotas se presentan redondeadas al dólar más cercano, se puede también 
elegir los límites de las seis clases como (82-86), (87-91), (92-96), (97-101), (102-106) 
y (107-111). Estos se conocen como los límites de escritura puesto que reflejan el 
mismo grado de precisión que el de las observaciones presentadas. El intervalo de la 
clase es la diferencia entre los limites verdaderos de cada clase, mientras que los pun- 
tos medios pueden determinarse al utilizar los límites verdaderos o los de escritura. 
En la tabla 1.3 se da un resumen de la información pertinente para el agrupamiento 
de este ejemplo. 

De acuerdo con lo mencionado al principio de esta sección, la distribución de fre- 
cuencia relativa se determina graneando las frecuencias relativas en el eje vertical 
contra los límites de escritura inferiores para cada una de las clases en el eje horizon- 
tal. Para este fin se emplean rectángulos de igual anchura que representen las fre- 
cuencias relativas. En la figura 1.3 se muestra el histograma del ejemplo 1.1. Nótese 
que es más fácil graficar las frecuencias de cada clase que las correspondientes fre- 
cuencias relativas; en ambos casos las gráficas serán idénticas. Si existe alguna prefe- 
rencia para usar las frecuencias relativas, se debe a que la escala vertical tiene un in- 
tervalo fijo de cero a uno. 

El principal objetivo de la representación gráfica de las frecuencias relativas es 
mostrar el perfil de distribución de los datos. El conocimiento de este perfil es útil en 
varias formas, como sugerían los análisis apropiados que se intentarán mediante la 
inferencia estadística, o si los datos constituyen una muestra aleatoria de alguna 
población o si se utilizan con el fm de comparar los perfiles de distribución de dos o 
más conjuntos de datos. En el ejemplo 1.1. es notorio que la distribución de cuotas 
anuales en las 40 compañías es uniforme a través de todo el intervalo de valores. 

Otra caracterización gráfica útil, de un conjunto de datos, es la distribución de 
frecuencia relativa acumulada u ojiva. La distribución acumulativa se obtiene gran- 
eando, en el eje vertical, la frecuencia relativa acumulativa de una clase contra el 

TABLA 1.3 Agrupamiento y frecuencias relativas para el ejemplo 1.1 



limites de escritura 
de la clase 


Punto 
medio 


Frecuencia de la clase 
f t 


Frecuencia relativa 
fi/n 


82-86 

87-91 

. 92-% 

97-101 

102-106 

107-111 


84 
89 
94 
99 
104 
109 

Total 


3 
7 
8 

x 7 
7 

40* 


3/40 = 0.075 
7/40 = 0.175 
8/40 = 0.200 
8/40 = 0.200 
7/40 = 0.175 
7/40 = 0.175 

1.000 











i.¿. í^cj*-i tyi-HJit £#u/<iu ut ityj uuhjj 






O 

C 
o 

3 
O 



0.20 



0.15 



0.10 



0.05 



82 87 92 97 102 
Cuotas anuales 



107 112 



FIGURA 1.3 Distribución de frecuencia relativa para los datos del ejemplo 1.1 

límite inferior de la siguiente sobre el eje horizontal y uniendo con segmentos todos 
los puntos consecutivos. La tabla 1.4 lista las frecuencias relativas acumuladas para 
el ejemplo 1.1. 

Dado que la frecuencia relativa de una clase refleja la proporción de las observa- 
ciones contenidas en ésta, la frecuencia relativa acumulativa es la proporción de ob- 
servaciones cuyos valores son menores o iguales al límite superior de la clase o, en 
forma equivalente, menores que el límite inferior de la siguiente clase. En el ejemplo 
1 . 1 y para la tabla 1 .4, la proporción de cuotas menores de $82 es cero. La de cuotas 
menores de $87 es de 0.075, la proporción de menores de $92 es de 0.250. La distri- 
bución de frecuencia relativa acumulativa para el ejemplo 1.1 se muestra en la figu- 
ra 1.4. 

En este contexto el principal uso de la distribución acumulativa es lo que común- 
mente se conoce como cuantiles. Con i especio a una distribución de frecuencia rela- 
tiva acumulativa, se define un cuantil como el valor bajo el cual se encuentra una de- 
terminada proporción de los valores de la distribución. El valor del cuantil se lee en 



TABLA 1.4 Distribución de la frecuencia relativa acumulativa 



Límites de 

escritura de 

la clase 



Frecuencia 
de clase 



Frecuencia 
acumulativa 



Frecuencia relativa 
acumulativa 



82-86 
87-91 
92-% 
97-101 
102-106 
107-111 



3 
7 
8 
8 

7 
7 



3 
10 
18 
26 
33 
40 



3/40 
10/40 
18/40 
26/40 
33/40 
40/40 



0.075 
0.250 
0.450 
0.650 
0.825 
1.000 



1.0 r 




«0.9 



'0.25 



109.5 
= 92 



FIGURA 1.4 Distribución de frecuencia relativa acumulativa para el ejemplo 1.1 

la dirección opuesta, en el eje horizontal, a la proporción correspondiente deseada 
sobre el eje vertical. El cuantii más común es el percentil. Por ejemplo, q 02 e $ el 
valor bajo el cual se encuentra el 20% de los valores de la distribución y g 09 es aquél 
bajo el cual se encuentra el 90% de los valores de la distribución. 

Ejemplo 1.2 El departamento de Agricultura de Estados Unidos informó que, en 
1976, los ingresos netos por cosecha para los 50 estados de la nación, fueron los si- 
guientes: 



$ 5 952 


63 855 


39 362 


9 692 - 


27 611 


13 647 


10 630 


6644 


4 438 


19 106 


8 681 


5 332 


2 304 


6 859 


8 141 


11 771 


9 378 


5 992 


7000 


12 543 


4 963 


4 543 


11 177 


12 292 


6 695 


10 207 


7 627 


8 992 


23 811 


7 657 


8 043 


8 972 


6 480 


6 824 


9 554 


4 626 


4 845 


10 452 


9 922 


7 683 


5 119 


8 621 


2 290 


4 973 


3904 


2 892 


5 405 


2 789 


30 


241 



Establecer un esquema de agrupamiento para este conjunto de datos y determinar 
las frecuencias relativas. 



1.2 Descripción gráfica de los datos 9 
TABLA 1.5 Frecuencias relativas para el ejemplo 1.2 con intervalos de igual longitud 



Límites de escritura de la clase Frecuencia de la clase Frecuencia relativa 

0-7 999 27 0.54 

8 000-15 999 18 0.% 

16 000-23 999 2 0.04 

24 000-31999 1 0.02 

32 000-39 999 1 0.02 

40 000-47 999 

48 000-55 999 

56 000-63 999 I 0.02 

Total 50 1 .00 



Supóngase que se decide emplear ocho clases de igual longitud. Puesto que la di- 
ferencia entre los dos valores extremos del conjunto de datos es aproximadamente 
de $64 000, la longitud de cada clase es de $8 000 y los límites son (-0.5-7 999.5), 
(7 999.5-15 999.5), .... (55 999.5-63 999.5). Las frecuencias de cada clase y las fre- 
cuencias relativas para este esquema de agrupamiento se dan en la tabla 1.5. Tal es- 
quema resulta inadecuado porque el 90% de las observaciones se encuentran en las 
dos primeras clases y existen otras dos que no tienen ninguna observación. Este 
ejemplo ilustra un conjunto de datos para el que no deben usarse intervalos de igual 
longitud, ya que se tiene un agregado muy alto de observaciones con sólo algunas 
cuantas dispersas alrededor de éste. En el ejemplo 1.2 existe mayor concentración de 
datos en el extremo inferior que en el superior. Por consiguiente, considérese/ el si- 
guiente esquema de agrupamiento de ocho clases con limites (-0.5-1 999.5), 
(1 999.5-3 999.5), (3 999.5-5 999.5), (5 999.5-7 999.5), (7 999.5-11 999.5), 
(11 999.5-27 999.5), (27 999.5-43 999.5), (43 999.5-75 999.5). La tabla 1.6 contiene 
las frecuencias relativas para este esquema, mientras que en la figura 1.5 se muestra 
la distribución de frecuencias. 

Al determinar la distribución de frecuencia relativa de la figura 1.5, se empleó la 
altura del rectángulo en la representación de la frecuencia relativa de cada clase, de 
la misma manera como se hizo en el ejemplo 1 . 1 . Sin embargo, a causa de que los 
intervalos no tienen la misma longitud, la figura 1 .5 produce la impresión errónea de 
que, por ejemplo, la clase (12 000-27 999) contiene más del 12% de las observa- 
ciones. Lo anterior se debe a que cuando se comparan figuras geométricas, como los 
rectángulos, se tiende más a comparar el área que la altura. Cuando los intervalos de 
clase son idénticos, el área de los rectángulos representa las frecuencias. Sin embargo 
cuando la longitud de los intervalos es diferente, como en el ejemplo 1 .2, las áreas 
no representan la frecuencia. Por lo tanto, es necesario ajustar la altura de los rec- 
tángulos para que sus áreas sean proporcionales a la frecuencia. Este procedimiento 
representa de manera correcta las frecuencias para intervalos de diferente longitud. 

Para ilustrar este método, en el ejemplo 1.2, se observa que las longitudes de las 
primeras cuatro clases son idénticas. Entonces deben ajustarse las últimas cuatro con el 
fin de que sus longitudes se relacionen con las de las primeras cuatro clases (de 
$2 000). Las alturas de los rectángulos correspondientes a las cuatro últimas clases se 













> 




0.30 










0.25 














CS 

> 

Ja 0.20 

V 


















es 


















g 0.15 


















3 
u 


















B- 0.10 










0.05 












1 tI 1 










»— i 


u — 


1 



2 4 6 8 12 28 44 

Ingresos netos por cosecha (miles de dólares) 



76 



FIGURA 1.5 Distribución de frecuencia relativa para los ingresos por cosecha del año 1976 

ajustan de tal forma que su área se encuentra en la misma proporción (2 000) con res- 
pecto a sus frecuencias relativas que las de los rectángulos de las primeras cuatro cla- 
ses. Las alturas de las primeras cuatro siguen siendo las mismas que aparecen en la úl- 
tima columna de la tabla 1 .6, mientras que las alturas corregidas para las últimas 
cuatro son 0.15, 0.015, 0.0025 y 0.00125 respectivamente. En este momento debe 
notarse que la suma de todas estas nuevas alturas es de 0.70875 y no de 1 .00, como es 
requerido para frecuencias relativas. Una división por 0.70875 convertirá estas altu- 
ras a las frecuencias relativas deseadas. En la tabla 1 .7 aparecen las frecuencias rela- 
tivas corregidas y en la figura 1 .6 se da la correcta representación de la distribución 
de frecuencia relativa. 



TABLA 1.6 Frecuencias relativas para el ejemplo 1.2 con intervalos de distinta longitud 



Límites de escritura de la clase 



Frecuencia de la clase 



Frecuencia relativa 



0-1 999 

2 000-3 999 

4 000-5 999 

6 000-7 999 

8000-11999 

12 000-27 999 

28 000-43 999 

44 000-75999 



\ 



2 
5 

11 
9 

15 
6 
1 
1 



0.04 
0.10 
0.22 
0.18 
.0.30 
0.12 
0.02 
0.02 



Total 



50 



1.00 



í.j ivieuiuuó ucaci i/jt i vus numéricas 11 



TABLA 1.7 

longitud 



Frecuencias relativas corregidas para el ejemplo 1.2 con intervalos de distinta 



Límites de escritura de la clase 



Frecuencia relativa corregida 



0-1 999 

2,000-3 999 

4,000-5 999 

6,000-7 999 

8,000-11 999 

12,000-27 999 

28,000-43 999 

44,000-75 999 

Total 



0.0564 
0.1411 
0.3104 
0.2540 
0.2116 
0.0212 
0.0035 
0.0018 

1.0000 



1.3 Medidas numéricas descriptivas 

En la sección anterior se plantearon las técnicas gráficas para descubrir los patrones 
de distribución ocultos en un conjunto de datos. En esta sección se definen algunas 
medidas numéricas que se emplean comúnmente para describir conjuntos de datos. 
Si el conjunto es una muestra aleatoria de una población y la última meta es hacer 
inferencia estadística, estas medidas serán utilizadas como bases para las inferen- 
cias, tal como se menciona en los capítulos 7 a 9. 



0.30 



0.25 

3 0.20 
"3 

£0 

1 0.15 

V 

3 
O 

£ o.io 



0.05 



-it 



1F 



2 4 6 8 12 " 28 v ' 44 

Ingresos netos por cosecha (miles de dólares) : 



=77= 



76 



■ ■ij--.'.. > 



FIGURA 1.6 Distribución de frecuencia relativa corregida para los ingresos por cosecha del 
año 1976 



12 Introducción y estadística descriptiva 

Existen dos medidas de interés para cualquier conjunto de datos: la localización 
de su centro y su variabilidad. La tendencia central de un conjunto de datos es la dis- 
posición de éstos para agruparse ya sea alrededor del centro o de ciertos valores nu- 
méricos. La variabilidad de un conjunto de datos es la dispersión de las observa- 
ciones en el conjunto. 

Existen principalmente tres medidas de tendencia central: la media, la mediana y 
la moda. 

Definición 1.1 La media de las observaciones jc, , x 2 , ..., x n es el promedio arit- 
mético de éstas y se denota por 

n 

x=J J x i /n. (1.1) 



La media es una medida apropiada de tendencia central para muchos conjuntos 
de datos. Sin embargo, dado que cualquier observación en el conjunto se emplea 
para su cálculo, el valor de la media puede afectarse de manera desproporcionada 
por la existencia de algunos valores extremos. 

Definición 1.2. La mediana de un conjunto de observaciones es el valor para el 
cual, cuando todas las observaciones se ordenan de manera creciente, la mitad de és- 
tas es menor que este valor y la otra mitad mayor. 

Si el número de observaciones en el conjunto es impar, la mediana es el valor de 
la observación que se encuentra a la mitad del conjunto ordenado. Si el número es 
par se considera la mediana como el promedio aritmético de los valores de las dos 
observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamen- 
te, la mediana puede determinarse a partir de la distribución acumulativa, es decir, 
la mediana es el percentil cincuenta. 

Puesto que la mediana es un valor que se basa en la secuencia ordenada de las ob- 
servaciones en un conjunto de datos, es necesario saber que la existencia de algunos 
valores extremos no afectará su valor. Por lo tanto, si un conjunto contiene unos 
cuantos valores extremos y un agregado muy alto de observaciones, la mediana 
puede ser una medida de tendencia central mucho más deseable que la media. Gene- 
ralmente los conjuntos de datos que describen información acerca de ingresos caen 
en esta categoría. 

Definición 1.3 La moda de un conjunto de observaciones es el valor de la observa- 
ción que ocurre con mayor frecuencia en el conjunto. 

La moda muestra hacia qué valor tienden los datos a agruparse. En conjuntos re- 
lativamente pequeños, puede que no exista un par de observaciones cuyo valor sea el 
mismo. En esta situación no es clara la definición de moda. También puede suceder 
que la frecuencia más alta se encuentre compartida por dos o más observaciones. En 
estos casos, la moda tiene una utilidad limitada como medida de tendencia central. 
Si se ha determinado una distribución de frecuencia relativa, la clase con la frecuen- 



1.3 Medidas descriptivas numéricas 13 

cía más alta recibirá el nombre de clase modal, con lo que se define a la moda como 
el punto medio de esa clase. En este caso la clase modal sirve como punto de con- 
centración en el conjunto de datos. 

Para las observaciones del ejemplo 1.1 la media se calcula como 

82 + 85 + ••• + 111 _ 

x = = $97.90. 

40 

La media para el ejemplo 1 .2 es 

5,952 + 63.855 + - + 24! 

50 

La mediana del ejemplo 1 . 1 es el promedio artimético de los valores de las obser- 
vaciones 20 y 21 en la secuencia ordenada de éstas, ya que existe un número par de 
observaciones. La mediana es (98 + 99)/2 = $98.50. Similarmente, la mediana del 
ejemplo 1.2 es el promedio aritmético de los valores de las observaciones 25 y 26 en 
la secuencia ordenada de éstas, o (7 627 + 7 657)/2 = $7 642. Se observa que la moda 
en el ejempo 1 . 1 es $95 porque este valor es el que ocurre con mayor frecuencia; sin 
embargo, para el ejemplo 1.2 la moda no está claramente definida puesto que nin- 
gún valor se repite. Nótese que para el ejemplo 1.1 los valores de la media, mediana y 
moda se encuentran muy cercanos, relativamente, entre sí. Esto se debe a que las 
cuotas se encuentran distribuidas de manera uniforme sobre el intervalo completo de 
valores. Para el ejemplo 1.2 la media es sustancialmente mayor que la mediana, de- 
bido a que la primera se encuentra afectada de manera desproporcionada por los 
ingresos por cosecha de algunos estados, los que son muy grandes comparados con 
los de otros. Asi, para este conjunto de datos la mediana de $7 642 podría ser una 
medida de tendencia central mucho más real. 

Muchas veces la única información disponible es una tabla de frecuencias, como 
las tablas 1.3 a 1.6. En estos casos sólo es posible obtener valores aproximados para 
la media, mediana y moda — o para cualquier otra medida numérica descriptiva — ; 
los valores exactos pueden calcularse únicamente a partir de las observaciones indi- 
viduales del conjunto o de los datos no agrupados. Los cálculos aproximados se 
basan en los puntos medios de cada clase y sus respectivas frecuencias. En general, 
mientras más pequeña sea la longitud de la clase y mayor la uniformidad de las ob- 
servaciones en ésta, mayor será la similitud entre las medidas descriptivas calculadas 
en los datos agrupados y no agrupados. 

Para calcular la media con base en los datos agrupados, sea k el número de clases 
y x¡ el punto medio de la /-ésima clase. Entonces el valor aproximado de la media es 

.'::'•'" ; -..'' x.= '2/-V«.- (1-2) 

m., ,;.c;--- ; ■; ,.■=■:,. ■.. .*-':.. . . ..... 

efi 'donde/- es la frecuencia de la /-ésima clase y n = 2f =l f¡. Nótese que en esta 
fórmula la frecuencia de la clase representa la frecuencia relativa de las observaciones 
dentro de cada clase. Es decir, entre más observaciones tenga una clase mayor será el 
peso del punto medio de ésta en el cálculo de la media. La afirmación anterior gene- 



TABLA 1.8 Calculo aproximado de la media para el ejemplo 1.1 



Punto medio 


Frecuencia de 




de la clase 


la clase 




x¡ 


f, 


fiX, 


84 


3 


252 


89 


7 


623 


94 


8 


752 


99 


8 


792 


104 


7 


728 


109 


7 


763 


Total 


40 


3 910 



n = £¿ = 40 

i= i 

6 

Y,f¡x¡ = 3 910 

i- I 

6 

x = *ZfiX,/n = 3 910/40 = $97.75 



raímente es cierta en la determinación de medidas numéricas con base en datos agru- 
pados. 

Se ilustrarán los procedimientos computacionales para determinar las medidas 
descriptivas numéricas empleando el ejemplo 1.1 y en particular los límites y frecuen- 
cias de cada clase expuestos en la tabla 1 .3. La información más importante aunada 
al cálculo de la media se muestra en la tabla 1.8. 

Para datos agrupados, la mediana es aquel valor que divide en dos partes iguales 
la distribución de frecuencia relativa. La fórmula computacional está dada por 

Mediana = L + c(j/f m ), (1.3) 

en donde L es el limite inferior de la clase donde se encuentra la mediana, f m es la 
frecuencia de esa clase, c es la longitud de la clase y y es el número de observaciones 
en esta clase, necesarias para completar un total de n/2. Para determinar la mediana 
esta fórmula en esencia, se interpola linealmente en la clase que contiene a la media- 
na. Así, se supone que las observaciones se encuentran distribuidas uniformemente 
dentro de la clase. 

La mediana para los datos agrupados del ejemplo 1.1 se determina utilizando la 
información contenida en la tabla 1 .3. El número total de observaciones es 40 y n/2 
es 20. Puesto que la suma de las frecuencias de las primeras tres clases es 18 y la de 
las primeras cuatro es 26, la mediana se encuentra en la cuarta clase, cuyo limite in- 
ferior es 97. Del total de observaciones en ésta clase, que es ocho, se necesitan dos 
más para alcanzar el valor de 20. Mediante el empleo de la fórmula, la mediana re- 
sulta ser 

Mediana = 97 + 5(2/8) = $98.25. 

Como se mencionó anteriormente, la moda se toma, para datos agrupados, como 
el punto medio de la clase que presenta una mayor frecuencia. En el ejemplo 1.1 la 
frecuencia más alta se encuentra compartida por las clases (92-96) y (97-101). Con 
base en lo anterior, la moda resulta ser «1 promedio aritmético entre los dps puntos 
memos de las clases, o (94 + 92)/2; = $%.50..,C.. ..,•; . ,, . , r . 

. Una medida de tendencia central proporciona información acerca de un conjun- 
to de datos pero no proporciona ninguna idea de la variabilidad de las observaciones 



1.3 Medidas descriptivas numéricas 15 

en dicho conjunto. Por ejemplo, considere los dos siguientes conjuntos de datos, 
cada uno de los cuales consiste de cuatro observaciones: 0, 25, 75, 100; 48, 49, 51, 
52. En ambos casos, media = mediana = 50. Estos dos conjuntos son muy diferen- 
tes entre sí, sin embargo las observaciones en el primero se encuentran mucho más 
dispersas que las del segundo. Una de las medidas más útiles de dispersión o va- 
riación es la varianza. 

Definición 1.4 La varianza de las observaciones x , , x 2 , • • • , x n es, en esencia, el pro- 
medio del cuadrado de las distancias entre cada observación y la media del conjunto 
de observaciones. La varianza se denota por 

n 

s 2 = lix, - xf/(n - 1). (1.4) 



La varianza es una medida razonablemente buena de la variabilidad debido a que 
si muchas de las diferencias son grandes (o pequeñas) entonces el valor de la varian- 
za s 2 será grande (o pequeño). El valor de la varianza puede sufrir un cambio muy 
desproporcionado, aún más que la media, por la existencia de algunos valores extre- 
mos en el conjunto. 

Definición 1.5 La raíz cuadrada positiva de la varianza recibe el nombre de des- 
viación estándar y se denota por 



= /5>/-*>7(n- I)- ' 0-5) 



La varianza y la desviación estándar no son medidas de variabilidad distintas, 
debido a que la última no puede determinarse a menos que se conozca la primera. 
A menudo se prefiere la desviación estándar en relación con la varianza, porque se 
expresa en las mismas unidades físicas de las observaciones. 

Cuando se calcula el valor de la varianza, ya sea a mano o mediante el uso de una 
calculadora de baja capacidad, y el valor de la media o los valores de las observa- 
ciones no son números enteros, el uso de la ecuación (1 .4) puede dar origen a errores 
grandes por redondeo. Con un poco de álgebra se obtiene, a partir de (1 .4), una fórmu- 
la computacional más exacta para esas condiciones:* 



s 2 = 2 fe - xf/in - 1) 
2tó - 2jcjc, + ]f 2 ) 



n-\ 
* Para un repaso de la notación de suma véase el apéndice de este capítulo. 



16 Introducción y estadística descriptiva 

2 x) - 2x 2 x¡ + iñ 1 



n - 1 



»(s„)(s«) {l* 

¿,x 2 ¡ + 



n 2 



n - I 



2*?- 



2*f 

/=! «_ 

n - 1 



(1.6) 



Nótese que para el numerador de la ecuación (1 .4) primero debe calcularse la media, 
restarla de cada observación, tomar el cuadrado y entonces sumar. Para el numera- 
dor de (1.6) se suman todos los cuadrados de los valores observados, y entonces se res- 
ta el cuadrado de su suma dividido por el número de observaciones. Con base en la 
ecuación (1 .6), la desviación estándar está dada por 




Z' ! ,- {!', /» 



A continuación se ilustran los pasos que se deben seguir para el cálculo de la va- 
rianza y la desviación estándar, para los datos no agrupados de los ejemplos 1.1 y 
i 2. Para el ejemplo 1.1, 

40 

2 *,- = 82 + 85 + - + III = 3 916 

/= i 

• ; 40 

X x] = 82 2 + 85 2 + ••■ + III 2 = 385 756. 

1=1 

Se usa la ecuación (1.6), x 

385756-^^ ■ 

, 40-' > 

5 =" 40-1 =61 ° 154 - 



De la ecuación (1.7) se sigue que la desviación estándar es 5 = V61.0154 = 
$7.81. 



1.3 Medidas descriptivas numéricas 17 
Para el ejemplo 1 .2 se tiene 



50 



2 x, ■ = 5 952 + 63 855 + ••• + 241 = 490 567, 
i= i 

50 

2 x) = 5 952 2 + 63 855 2 + ••• + 241 2 = 10 000 514 273, 



¿=i 



490 567 2 
10 000 514 273 — — 

s 1 = — = 105 865 196.8. 

La desviación estándar es s = $10 289.08. 

Para datos agrupados, puede calcularse el valor aproximado de la varianza me- 
diante el uso de la fórmula 



iMxt-x) 2 
n - 1 



(1.8) 



E/tí 

s 2 = ^ 7-?— (1-9) 

n — 1 



La fórmula para la desviación estándar es 



* = JlMxi-VVin- I)- (110) 



Para las tres fórmulas anteriores f¡ y x¡ son, respectivamente, la frecuencia y el 
punto medio de la /-ésima clase, y n es. la suma de todas las frecuencias. Debe notarse 
que, en datos agrupados, la aproximación a la varianza puede no ser muy confiable, 
especialmente si las observaciones no se encuentran distribuidas de manera uniforme 
dentro de sus respectivas clases. £1 cálculo de los valores aproximados de la varianza 
y la desviación estándar, páralos datos agrupados del ejemplo LJ»'Se encuentra de- 
tallado en la tabla 1.9. ')hc. 1 o?,'u[h^ '...;-,-,■ ; ;fnr j ¡ : > : - 

Otra medida útil de la variabilidad tiene base en el valor-absoluto de las diferen- 
cias entre las observaciones x v x 2 ...x n y la media o la mediana, dependiendo de cual 
de las dos se emplee como medida de tendencia central. 



18 Introducción y estadística descriptiva 

TABLA 1.9 Cálculo de los valores aproximados de la varianza y la desviación estándar para 
el ejemplo 1.1 



Punto medio 
de la clase 

x¡ 


Frecuencia de 
la clase 

f, *■ 


f,x) 


(tj<* 


Íf,x, 
'■) / 40 


= 3 910 (de la tabla) 1.8) 


84 


3 


7 056 


21 168 


= 382 202.5 


89 


7 


7 921 


55 447 


\,Tl 


// 




94 


8 


8 836 


70 688 




6 




99 
104 


8 

7 


9 801 
10 816 


78 408 

75 712 




í=i 


= 384 590 


109 


7 


11 881 


83 167 




2 


384 590 - 382 202.5 


Total 


40 


11 881 


384 590 




S 


40 - 1 



= 61.2179 



s = V61.2179 = $7.82 



Definición 1.6 La desviación media es el promedio de los valores absolutos de las 
diferencias entre cada observación y la media de las observaciones. La desviación 
media está dada por 

n 

2k- - *l 

D.M. =— . (1.11) 

n 

Para datos agrupados, el valor de la desviación media se aproxima por 

* 

D.M. = '^— k . (1.12) 

2/, 

Los términos empleados en estas expresiones son los mismos definidos anterior- 
mente. 

La desviación media es una medida interesante de la variación, especialmente en el 
contexto de la evidencia empírica, debido a que en muchas ocasiones el interés se 
centra en las desviaciones y no en los signos de éstas. Sin embargo, desde un punto de 
vista teórico, el empleo de la desviación media como medida de dispersión está en 
desventaja dado que, matemáticamente, es difícil de obtener. De cualquier manera, 
la desviación media es menos sensible a los efectos inducidos por las observaciones 
extremas del conjunto de datos que la varianza o la desviación estándar/ Sin impor 1 
tar la presencia de pocos valores extremos, la desviación media puede! proporcio- 
nar una medida de dispersión mucho más real que la obtenida por la desviación es- 
tándar. 



1.3 Medidas descriptivas numéricas 19 

Para los datos no agrupados del ejemplo 1.1, la desviación media se calcula a 
partir de 

40 

£k - *| = |82 - 97.9| + |85 - 97.9| + - + |111 - 97.9| - 264.2 

para ser 

D.M. = 264.2/40= $6.61. 

De manera similar para el ejemplo 1.2, la desviación media se calcula a partir de 

50 

2k - x\ = |5 952 - 9 811.34| + |63 855 - 9 811.34| + - + |241 - 9 811.34| 
í=i 

= 278 051.48 

para ser 

D.M. = 278 051.48/50 = $5 561.03. 

Los pasos computacionales para una aproximación de la desviación media a los 
datos agrupados del ejemplo 1.1, se ilustran en la tabla 1.10. 

Definición 1.7 La desviación mediana es el promedio de los valores absolutos de 
las diferencias entre cada observación y la mediana de éstas. La desviación mediana 
está dada por 



2\x,-DMd\ 



f=i 



D.Md.=^ , (1.13) 

n 

en donde Md denota a la mediana. 

Cuando la mediana se emplea como medida de tendencia central con el propósito 
de atenuar los efectos de la existencia de algunos valores extremos en el conjunto, 

TABLA 1.10 Cálculo aproximado de la desviación de la mediana para el ejemplo 1.1 



Punto medio 
de la clase 

' x¡ 


Frecuencia de 
la clase 

f, 


\x¡ - x\ 


/•k - A 




84 
89 
94 
99 
* 104 
109 


3 
7 
8 
8 

'•' - : "' 7 ;r - ; '' 
7 


| 84 - 97.75| 
i 89 - 97.751 
| 94 - 97.75J 
| 99 - 97.75J 
¡104 - 97.75J 
¡109 - 97.75J 


41.25 
.61.25 - 

30.00 

10.00 

-43.75 

; 78.75 


b 

2/|x,;- x\ = 265 

D.M. = 265/40 
■ -^:$6.63 ; " 


Total 


40 > 




265.00 





£U introducción y esiaaisuca descriptiva 

debe preferirse a la desviación de la mediana como medida de dispersión por la misma 
razón. Cuando los datos se agrupan, se obtiene el valor aproximado de la desviación 
de la mediana al emplear la ecuación (1 . 12) y sustituir la mediana por la media. Las 
desviaciones de las medianas para las observaciones de los ejemplos 1 . 1 y 1 .2 calcu- 
ladas con el mismo procedimiento que para las desviaciones de las medias, son 6.6 y 
5 060.60 respectivamente. De manera similar el valor aproximado de la desviación 
de la mediana para los datos agrupados del ejemplo 1.1 tiene un valor de 6.575. 

El intervalo en el que se encuentran las observaciones en un conjunto de datos, es 
otra medida de variabilidad. 

Definición 1.8 El recorrido R de las observaciones en un conjunto de datos es la di- 
ferencia entre el valor más grande y el más pequeño del conjunto. 

Por su simplicidad, el recorrido proporciona una rápida indicación de la variabi- 
lidad existente entre las observaciones de un conjunto de datos. Sin embargo, como 
medida de dispersión debe usarse con precaución ya que su valor es una función, 
únicamente, de dos valores extremos pertenecientes al conjunto. Como regla general 
se debe evitar el uso del recorrido como medida de variabilidad, cuando el número 
de observaciones en un conjunto es grande o cuando éste contenga algunas observa- 
ciones cuyo valor sea relativamente grande. Este punto puede ilustrarse consideran- 
do los recorridos de los ejemplos 1.1 y 1.2, que son /?, = 111 - 82 = $29, y R 2 = 
63 855-30 = $63 825, respectivamente. Para el ejemplo 1.1, /?, parece ser una 
medida realista de la variabilidad, debido principalmente a que el conjunto no con- 
tiene ninguna cuota que se salga de la linea relativa a las otras. Sin embargo, para el 
ejemplo 1 .2, R 2 no es una medida realista de la variabilidad, dado que los valores de 
$30 y $63 855 son, aparentemente, valores extremos con respecto a los ingresos ne- 
tos por cosecha de gran parte de los otros estados. Para muchos problemas tiene una 
mayor utilidad determinar el recorrido entre dos valores cuantiles que entre dos va- 
lores extremos. 

Definición 1.9 La diferencia entre los percentiles 75avo y 25avo recibe ei nombre 
de recorrido intercuantil. 

Definición 1.10 La diferencia entre los percentiles 90avo y décimo recibe el nombre 
de recorrido interdecil. 

El recorrido intercuantil refleja la variabilidad de las observaciones comprendi- 
das entre los percentiles 25 y 75 en el conjunto de datos, y el recorrido interdecil indi- 
ca la dispersión de las observaciones con valores entre los percentiles 90 y 10. El re- 
sultado es que ni el rango intercuantil ni el interdecil son afectados por la presencia 
de observaciones relativamente grandes. \ 

Para datos agrupados se pueden aproximar los recorridos intercuantil e interde- 
¿h á partir de la distribución de frecuencia relativa acumulada. Para ilustrar, 
empleando la figura 1.1, los valores aproximados de. los rangos intercuantil e inter- 
decil para el ejemplo 1.1 son <7o,75 - <? .25 = 104.50-92 = $12.50, y <7 ., ~ <7o.i = 
109.5 - 87.5 = $22, respectivamente. Para un conjunto de datos no agrupados 



l.i Medidas descriptivas numéricas 21 

que contenga n observaciones, los percentiles 75avo y 25avo son los valores de las 
observaciones cuyos números de posición en la secuencia ordenada de observa- 
ciones, corresponden a 0.75« + 0.5 y 0.25« + 0.5, respectivamente. De manera si- 
milar, los percentiles 90 y décimo corresponden a los valores de las observaciones cu- 
yos números de posición, con respecto a la secuencia ordenada, son 0.9/r + 0.5 y 
O.l/i + 0.5 respectivamente. Para los datos del ejemplo 1.2, los percentiles 25 y 75 son 
los valores de las observaciones 13 y 38 correspondientes a la secuencia ordenada de las 
observaciones, respectivamente. De esta manera, q^ = $4 973, q 01f = $10 207, 
siendo el recorrido intercuantil de $5 234. Dado que para n = 50 O.l/i + 0.5 = 
5.5, el décimo percentil es el promedio de los valores 5 y 6, de las observaciones 
ordenadas, o %.i = 2 840.5. Similarmente el percentil 90avo es el promedio de las 
observaciones 45 y 46 correspondientes a la secuencia ordenada, o q {)9 = 16 376.5. 
Por lo tanto, el recorrido interdecil para los datos del ejemplo 1.1 es de $13 536. 

A lo largo de todo el capítulo se han empleado los ejemplos 1.1 y 1.2 para ilustrar 
varios conceptos. Es importante notar que presentan situaciones contrastantes. El 
primero presenta un conjunto de datos en el que las observaciones se encuentran 
distribuidas de manera uniforme a lo largo del recorrido completo de valores, sin 
ninguna observación relativamente grande. El último ejemplifica una situación en la 
que existe un agregado muy denso de observaciones y algunos valores relativamente 
grandes, especialmente en el extremo superior. La diferencia innata entre estos dos 
ejemplos, puede discernirse a través de una comparación de las medidas descriptivas 
numéricas que se han calculado para cada uno de ellos y que aparecen en la ta- 
bla 1.11. 

Nótese que en el ejemplo 1.1 los valores de las medidas de tendencia central se 
encuentran muy cercanos entre sí, mientras que para el ejemplo 1 .2 se encuentran se- 
paradas entre sí de manera considerable. Se puede decir lo mismo de las desviaciones 
estándar, media y mediana para los dos ejemplos. En el ejemplo primero los valores de 
las desviaciones de la media y de la mediana se encuentran muy próximos al valor 
de la desviación estándar, mientras que en el ejemplo 1 .2 tienen un valor casi similar 
a la mitad de la desviación estándar. Además, en el ejemplo 1 .1 el recorrido interde- 
cil constituye una proporción relativamente grande del recorrido (22/29 = 0.76), 



TABLA 1.11 Resumen de las medidas numéricas descriptivas para los ejemplos 1.1 y 1.2 



Medida 




Ejemplo 


1.1 




Ejemplo 1.2 


numérica 


Datos no agrupados 


Datos agrupados 


Datos no agrupados 


Media 


97.90 






97.75 


9 811.34 


Mediana 


98.50 






98.25 


7 642.00 


Moda 


95.00 






96.50 


— 


Varianza 


61.0154 






61.2179 


105 865 196.80 


Desviación estándar 


7.81 






7.82' 


10 289.08 


Desviación media 


6.61 






6.63 


5 561.03 


Desviación mediana 


6.60 






6.575 


5 060.60 


Recorrido 


29.00 






— 


63 825.00 


Recorrido intercuantil 


— 






12.50 


5 234.00 


Recorrido interdecil 


— 






22.00 


13 536.00 



22 Introducción y estadística descriptiva 

y en el ejemplo 1 .2 esta medida es una porción relativamente pequeña de este último 
(13 536/63 825 = 0.21). 

Estas comparaciones aclaran lo que las medidas numéricas y las distribuciones de 
frecuencia pueden hacer para descubrir la naturaleza inherente de un conjunto 
de datos. Sin embargo, el usuario debe tener cuidado tanto en la elección como en la in- 
terpretación de estas medidas. A pesar de que la media y la desviación estándar se han 
empleado de manera extensa como medidas de tendencia central y dispersión respec- 
tivamente, aunque tienen propiedades teóricas muy atractivas existen problemas 
— como el ejemplo 1.2 — para los cuales no pueden ser las medidas más deseables. En 
general, y por ende, las medidas más deseables para conjuntos de datos relacionados 
con mediciones físicas como lecturas de instrumentos, especificaciones de partes, pe- 
sos, etc., son la medida y la desviación estándar o la desviación de la mediana. Para 
conjuntos de datos relacionados con ingresos y otras informaciones de tipo econó- 
mico y financiero, las mejores elecciones para las medidas de tendencia central y dis- 
persión son la mediana y la desviación de la mediana respectivamente. 

Como nota final, las agencias del gobierno y muchos servicios de información 
proporcionan información en tablas de frecuencia que no sólo contienen clases de 
amplitud diferente sino también clases abiertas como "ingreso anual de $500 000 
o más" con el propósito de tener mayor cobertura de los datos. Estas clases se presen- 
tan en los extremos del conjunto y no se especifican las clases terminales. Como re- 
sultado, el punto medio de las clases abiertas no se encuentra definido y no pueden 
calcularse valores aproximados para algunas medidas numéricas como la media, va- 
rianza, desviación estándar y desviación media, a menos que se encuentren dispo- 
nibles algunas observaciones individuales contenidas en la clase o que sea conocido 
su promedio artimético. 



Referencia 

1. N.L. Johnson y F.C. Leone, Statistics and experimental design, Vol. I, segunda edición, 
Wi'-y, New York, 1977. 



Ejercicios 

1.1. Los siguientes datos son los lapsos, en minutos, necesarios para que 50 clientes de un 
banco comercial, lleven a cabo una transacción bancada: 



2.3 


0.2 


2.9 


0.4 


2.8 


2.4 


4.4 


5.8 


2.8 


3.3 


3.3 


9.7 v 


2.5 


5.6 


9.5 


1.8 


4.7 V 


0.7 


6.2 


1.2 


7.8 


0.8 


0.9 


0.4 


1.3 


3.L. 


3.7 


7.2 


1.6 


1.9 


2.4 y 


4.6 


3.8 


1.5 


2.7 


0.4 


1.3 


l.l 


5.5 


3.4 


4.2 


1.2 


0.5 


6.8 


5.2 


6.3 


7.6 


1.4 


0.5 


1.4 



Ejercicios 23 

a) Construir una distribución de frecuencia relativa. 

b) Construir una distribución de frecuencia relativa acumulada. 

c) Con los resultados de la parte b, determine los recorridos intercuantil e interdecil. 

d) Con los datos agrupados, calcule la media, mediana, moda, desviación estándar, 
desviación media y desviación mediana. 

e) Verificar los resultados de la parte d calculando las mismas medidas para los datos no 
agrupados. 

1 .2. La demanda diaria, en unidades de un producto, durante 30 días de trabajo es: 



38 


35 


76 


58 


48 


59 


67 


63 


33 


69 


53 


51 


28 


25 


36 


32 


61 


57 


49 


78 


48 


42 


72 


52 


47 


66 


58 


44 


44 


56 



a) Construir las distribuciones de frecuencia relativa y de frecuencia acumulada. 

b) Con la distribución acumulada, determine los tres cuantiles. 

c) Calcular la media, mediana, moda, desviación estándar, desviación media y des- 
viación mediana, empleando tanto los datos agrupados como los no agrupados, y 
compare los dos conjuntos de resultados. 

d) Comentar la naturaleza de esta distribución de frecuencia, cuando se compara con la 
del ejercicio 1.1. 

1.3. Aquí se presentan tres conjuntos de datos: 

1,2,3,4,5,6; 
1, 1, 1,6, 6, 6; 
-13, 2, 3, 4, 5, 20. 

Calcular la media y la varianza para cada conjunto de datos. ¿Qué se puede concluir? 

1.4. La siguiente tabla muestra las ventas, en miles de dólares, de 23 vendedores de una 
compañía de computadoras. 



40.2 


29.3 


35.6 


88.2 


42.9 


26.9 


28.7 


99.8 


35.6 


37.8 


44.2 


32.3 


55.2 


50.6 


25.4 


31.7 


36.8 


45.2 


25.1 


39.7 



a) Calcular la media, mediana, desviación estándar, desviación mediana, recorrido in- 
tercuantil y recorrido interdecil. 

b) ¿Qué medidas de tendencia central y dispersión se elegirian y por qué? 

1.5. Con los datos del ejercicio 1.2, sea x, la demanda del i-ésimo día para i = 1, 2 ... 30. 
I Transformar los datos por medio de la relación 

! ■ . . 

! .■.■..•■■■•■■ :■'■'•'-. !j , -. - - ■■■. x,- 51.5 :•>■'■ 

j -•■"'"•■ 14.17 ■■■•■'■■' ' 



ia introducción y estadística descriptiva 

a) Construir una distribución de frecuencia relativa para los datos transformados. ¿Ha 
ocurrido algún cambio en la naturaleza de la distribución de frecuencia cuando ésta 
se compara con la del ejercicio 1.2? 

b) Con los datos transformados //, , calcular la media y la desviación estándar; mostrar 
que son iguales a cero y uno respectivamente. 

1.6. Los siguientes datos agrupados representan los pagos por almacenamiento para los 50 más 
grandes detallistas durante el año 1979: 



Límites de estructura de la clase 


Frecuencia 


1. 10-1.86 


4 


1.87-2.63 


14 


2.64-3.40 


11 


3.41-4.17 


9 


4.18-4.94 


7 


4.95-5.71 


1 


5.72-6.48 


2 


6.49-7.25 


2 



a) Graficar la distribución de frecuencia relativa acumulada. 

b) Con los resultados de la parte a), determinar los recorridos intercuantil e interdecil. 

c) Calcular la media, mediana y moda. 

d) Calcular la varianza, desviación estándar, desviación media y desviación mediana. 

1.7. La siguiente información agrupada representa el numero de puntos anotados por equipo 
y por juego en la Liga Nacional de Fútbol durante la temporada de 1973: 

Grupo Frecuencia 



0-3 


27 


4-10 


66 


11-17 


91 


18-24 


70 


25-31 


57 


32-38 


34 


39-45 


16 


46-52 


3 



a) Graficar la distribución de frecuencia relativa. 

b) Calcular la media y la moda. 

c) Calcular la varianza, desviación estándar y desviación media. 

1.8. Se seleccionaron de un proceso de fabricación, aleatoriamente, 20 baterías y se llevó a 
cabo una prueba para determinar la duración de éstas. Los siguientes datos representan 
el tiempo de duración, en horas, para las 20 baterías: 



52.5 


62.7 , 


58.9 


65.7 


49.3 


58.9 


57.3 N 


60.4 


59.6 


58.1 


62.3 


64.4 


52.7 


54.9 


48.8 


56.8 


53.1 


58.7 


61.6 


63.3 



• a) Determinar la media y la mediana. 

\ b) Determinar la desviación estándar, desviación media y desviación mediana. 

| c) Determinar los recorridos intercuantil e interdecil. 



i- 



Apéndice 25 

APÉNDICE 

Sumatorias y otras notaciones simbólicas 

El uso de la notación simbólica es esencial en estadística. Por ejemplo, para distin- 
guir entre los valores de n observaciones se emplea la notación simbólica x u x 2 

x„.Uno de los símbolos más útiles es la letra griega X (sigma) con que se denota la 
suma de términos en una secuencia. De esta manera la suma de jc,, x 2 ..., x n se desig- 
na por 

2 x¡ = x, + x 2 + •■■ + x„, 

y se lee "la suma de las x,, con i variando desde 1 hasta n". La letra / recibe el 
nombre de índice de suma y toma valores enteros sucesivos hasta e incluyendo a n, 
que es el límite superior o el valor más grande de i. Los siguientes son ejemplos del 
uso de 2 

n 

a) 2 x / = *i + x \ + - + xl; 

n 

b) 2 (x¡ - a) = (x, - a) + (x 2 - a) + ■■■ + (x„ - a); 

n 

c) 2 (x, - a) 2 = (x, - a) 2 + (x 2 - a) 2 + - + (x„ - a) 2 ; 

;=l 
n 

d) 2 x¡y¡ = x,y, + x 2 y 2 + — + x„y„ . 
i=\ 

Las siguientes tres propiedades son importantes cuando se emplea el símbolo 2, 
Propiedad 1 . Si c es cualquier constante, entonces 

n n 

2 cx¡ = c 2 x¡. 
1=1 1=1 

Propiedad 2. Si c es cualquier constante, entonces 

n 

2 c = nc. 
Propiedad 3. 

n n n 

Ufo + y*) = 2 * + 2 y.-- 



/= i /= i 



26 Introducción y estadística descriptiva 

Las propiedades anteriores pueden verificarse de la siguiente manera: 

n 

1) 2 cx ¡ = ex, + cx 2 + — + cx„ 
= c(x ] + x 2 + ••• •+ .rj 

» 

= <'2 -*/■ 

i= I 

M 

2)Y.c = c + c + — + c 

í=l * v ' 

n términos 

= (1 + 1 + - + l)c 

' . ' 

n términos 
= nc. 

n 

3) 2(*. + y,) = (x, + y,) + Cx 2 + y 2 ) + - + U« + JÜ 

= U, + x 2 + •■■ + x„) + ( v, + y 2 + ••■ + y„) 

n n 

= 2*¡ + 2?.- 
;= i /= i 

El símbolo 2 también se emplea para denotar la suma sobre dos características 
diferentes. Por ejemplo, supóngase que se tiene la función p(x, y) de las variables x y 
y, las que toman únicamente valores enteros. *in particular x toma los valores ente- 
ros de y 1, y y valores 1 , 2 y 3. Entonces la suma de p(x, y) sobre todos los valo- 
res tanto de x como de .y se denota por 

13 

2 2 P(x>y) = MO, 1) + P(0, 2) + p(0, 3) + p(l, 1) + p(l, 2) + p(l, 3). 

Nótese que primero se elige el índice de suma de x igual a cero y entonces se evalúa la 
suma interna para cada uno de los valores del índice de suma de .y. Posteriormente se 
incrementa el índice de suma de ir en uno y se repite el proceso. El procedimiento an- 
terior también se aplica a todas aquellas situaciones en las que se emplean subscritos 
dobles para distinguir entre dos características. Por ejemplo, considere la suma de la 
secuencia x , / = 1,2 ... n,./ = 1,2... m para todos los valores posibles de i y de j. 
Tal suma puede denotarse por 

'" -C [ ' ■"-.'.■ 2 2*./- 



Apéndice 27 
En particular, si/i = 2ym = 3, entonces 



2 i 



2 2 x :¡ = -^ii + ^12 + -*i.i + -*:i + -v?: + -v :? . 



,= !.,= i 



Otro símbolo últil es la letra griega íl (pi). Esta letra se emplea para indicar el 
producto de los términos de una secuencia. Por ejemplo, dada la secuencia de obser- 
vaciones v,, x 2 x„, el producto de x,, x 2 , ..., x„ se denota por 

n 

l\x¡ = XíXj ...x,„ 
en donde la letra / tiene el mismo propósito que en la suma. 



CAPÍTULO DOS 



Conceptos en probabilidad 



2.1 Introducción 

La probabilidad es un mecanismo por medio del cual pueden estudiarse sucesos alea- 
torios, cuando éstos se comparan con los fenómenos determinísticos. Por ejemplo, 
nadie espera predecir con certidumbre el resultado de un experimento tan simple 
como el lanzamiento de una moneda. Sin embargo, cualquier estudiante de primer 
año de licenciatura en física debe ser capaz de calcular el tiempo que transcurrirá 
para que un objeto, que se deja caer desde una altura conocida, llegue al suelo. 

La probabilidad tiene un papel crucial en la aplicación de la inferencia estadística 
porque una decisión, cuyo fundamento se encuentra en la información contenida en 
una muestra aleatoria, puede estar equivocada. Sin una adecuada comprensión de las 
leyes básicas de la probabilidad, es difícil utilizar la metodología estadística de ma- 
nera efectiva. 

Para ilustrar el uso de la probabilidad en la toma de decisiones, considérese el si- 
guiente ejemplo: una compañía produce un detergente líquido que se envasa en bo- 
tellas de 500 mi, las que son llenadas por una máquina. Debido a que las botellas que 
contienen una cantidad mayor de 500 mi representan una pérdida para la compañía 
y todas aquellas que contienen una cantidad menor constituyen una pérdida para el 
consumidor (lo que puede desencadenar una acción legal en contra de la compañía), 
la compañía realiza todos los esfuerzos necesarios para mantener el volumen neto 
promedio en un nivel de 500 mi. Para mantener un control apropiado se ideó el si- 
guiente esquema de muestreo: se seleccionarán 10 botellas del proceso de llenado, 
cuatro veces durante el transcurso del día y se determinará su contenido neto prome- 
dio. Si éste se encuentra entre 498 y 502 mi, inclusive, el proceso se considerará 
"bajo control"; de otra manera, éste se encontrará "fuera de control". En este caso 
se detendrá d llenado, llevando a cabo todos los esfuerzos necesarios para determi- 
nar la causa, si es que ésta existe, del problema. Con toda seguridad y para cual- 
quiera de las dos situaciones se tienen riesgos. Si el proceso se considera bajo 
control, podría encontrarse fuera de éste, y la compañía puede estar perdiendo el 
producto o sujetándose a una acción legal por parte de las correspondientes oficinas 
del gobierno. Por otro lado si el proceso se considera fuera de control, puede en rea- 
lidad encontrarse bajo control y la compañía estará intentando localizar una falla 



2.2 La definición clásica de la probabilidad 29 

inexistente. La evaluación de estos riesgos sólo puede hacerse de manera efectiva a 
través del uso de la probabilidad. 

En las tres secciones siguientes se examinarán las interpretaciones clásica, de fre- 
cuencia relativa y subjetiva, de la probabilidad. Las dos primeras son muy similares 
debido a que se basan en la repetición de experimentos realizados bajo las mismas 
condiciones, como el lanzamiento de una moneda. La interpretación subjetiva o per- 
sonal de la probabilidad representa una medida del grado de creencia con respecto a 
una proposición, como podría ser si la creación de una nueva empresa tendrá éxito. 
En la sección 2.5 se establecen algunos axiomas y, con base en éstos, se define for- 
malmente la probabilidad. El desarrollo axiomático incluye las tres interpretaciones 
de la probabilidad. 

2.2 La definición clásica de probabilidad 

El desarrollo inicial de la probabilidad se asocia con los juegos de azar. Por ejemplo, 
considérense dos dados que se distingan y que no están cargados; el interés recae en 
los números que aparecen cuando se tiran los dados. En la tabla 2.2 se dan los 36 po- 
sibles pares de números. 

Una característica clave de este ejemplo, así como también de muchos otros rela- 
cionados con los juegos de azar, es que los 36 resultados son mutuamente excluyen- 
tes debido a que no puede aparecer más de un par en forma simultánea. Los 36 resul- 
tados son igualmente probables puesto que sus frecuencias son prácticamente las 
mismas, si se supone que los dados no están cargados y que el experimento se lleva a 
cabo un número suficientemente grande de veces. Nótese que de los 36 resultados 
posibles, seis dan una suma de siete, cinco dan una suma de ocho, etc. Por )o tanto, 
puede pensarse de manera intuitiva que la probabilidad de obtener un par de núme- 
ros cuya suma sea siete es la proporción de resultados que suman siete con respecto 
al número total, en este caso 6/36. Es importante que el lector comprenda que la 
proporción 6/36 se obtiene únicamente después de que el experimento se realiza un 
número grande de veces, es decir, después de efectuar el experimento muchas veces 
se observará que, alrededor de la sexta parte de éste, la suma de los números que 
aparecen es igual a siete. La proporción 6/36 no significa que en seis tiradas, forzo- 
samente una dará como resultado un siete. Para situaciones de este tipo es apropiada 
la siguiente definición de probabilidad. 

Definición 2.1 Si un experimento que está sujeto al azar, resulta de n formas igual- 
mente probables y mutuamente excluyentes, y si n A de estos resultados tienen un 
atributo A, la probabilidad de A es la proporción de n A con respecto a n. 

TABLA 2.1 Posibles resultados que aparecen cuando se lanzan dos dados 



1,1 


1,2 


1,3 


1,4 


1,5 


1,6 


2,1 


2,2 


2,3 


2,4 


2,5 


2,6 


3,1 


3,2 


■■'■ 3,3 


3.4 


3,5 


3,6 


4,1 


4,2 


4,3 


4,4 


4,5 


4,6 


5,1 , 


5,2 


5,3 


5,4 


5,5 


5,6 


6,1 


6,2 


6,3 


6,4 


6,5 


6,6 



30 Conceptos en probabilidad 

2.3 Definición de probabilidad como frecuencia relativa 

En muchas situaciones prácticas, los posibles resultados de un experimento no son 
igualmente probables. Por ejemplo, en una fábrica las oportunidades de observar un 
artículo defectuoso normalmente será mucho más rara que observar un artículo 
bueno. En este caso, no es correcto estimar la probabilidad de encontrar un artículo 
defectuoso mediante el empleo de la definición clásica. En lugar de ésta, en muchas 
ocasiones se emplea la interpretación de ía probabilidad como una frecuencia rela- 
tiva. 

La interpretación de una frecuencia relativa descansa en la idea de que un experi- 
mento se efectúa y se repite muchas veces, y prácticamente bajo las mismas condi- 
ciones. Cada vez que un experimento se lleva a cabo, se observa un resultado. Éste es 
impredecible dada la naturaleza aleatoria del experimento, la probabilidad de la pre- 
sencia de cierto atributo se aproxima por la frecuencia relativa de los resultados que 
posee dicho atributo. Conforme aumenta la repetición del experimento, la frecuen- 
cia relativa de los resultados favorables se aproxima al verdadero valor de la proba- 
bilidad para ese atributo. Por ejemplo: supóngase que se desea determinar la pro- 
porción de artículos defectuosos en un proceso de fabricación. Para llevar a cabo lo 
anterior, se muestra un determinado número de artículos; cada observación consti- 
tuye un experimento. Los resultados pueden clasificarse como defectuosos o no defec- 
tuosos. Si el proceso de fabricación es estable, y asegura así las condiciones unifor- 
mes, al aumentar el número de artículos muestreados, la frecuencia relativa de 
artículos defectuosos con respecto al número de unidades muestreadas se aproxima- 
rá cada vez más a la verdadera proporción de artículos defectuosos. 

Para ilustrar la interpretación de la probabilidad como frecuencia relativa se si- 
muló en una computadora un proceso de muestreo de n unidades, suponiendo que el 
proceso de fabricación producía un 5% de artículos defectuosos. Para cada n se ob- 
servó el número de unidades defectuosas; los resultados se dan en la tabla 2.2 para 
valores de n entre 20 y 10 000. A partir de esto es razonable concluir que la frecuen- 
cia relativa tiende a un valor verdadero de 0.0S conforme n crece. De esta manera, se 
sugiere la siguiente definición de la probabilidad como frecuencia relativa: 



TABLA 2.2. Resultados de un experimento simulado en computadora 

Número de unidades Número de unidades ' Frecuencia 

muestreadas (n) defectuosas observadas relativa 

20 2 0.10 

50 \ í 0.06 

100 4 \ 0.04 

200 12 0.Q6 

.500- :::»'■ :..<•.:■. 4- : -.■ ■: 28 ' '"'■■- ■.•'.■-.' 0.056 

1 000 i; : 54 u "( 0.054 ..-.. 

2 000 . 97 ; 0.0485 
5 000 ' 244 ' 0.0488 

10 000 " ' >v 504 0.0504 



2.4 Interpretación subjetiva de la probabilidad 31 

Definición 2.2 Si un experimento se repite n veces bajo las mismas condiciones y 
n B de los resultados son favorables a un atributo B, el limite de n B jn conforme n se 
vuelve grande, se define como la probabilidad del atributo B. 

2.4 Interpretación subjetiva de la probabilidad 

La repetición de un experimento bajo las mismas condiciones es la base para las in- 
terpretaciones clásica y de frecuencia relativa de la probabilidad. Sin embargo, 
muchos fenómenos no se prestan para repetición, pero a pesar de esto requieren 
de una noción de probabilidad. Por ejemplo la compañía que aseguró los Juegos 
Olímpicos de 1980 tuvo que determinar, apriori, los riesgos de que los juegos no se 
efectuasen de la manera en que se habían planeado. O cuando se aseguran contra 
robo o daño esculturas y pinturas cuyo valor es muy alto, las compañías aseguradoras 
deben tener idea de los riesgos adquiridos para fijar de manera adecuada, el precio 
del seguro. En ninguno de estos ejemplos puede concebirse un experimento suscep- 
tible de llevarse a cabo bajo condiciones similares. Por otra parte, muchas de las 
afirmaciones que suelen formularse las personas de algún modo implican probabili- 
dad. Por ejemplo, cuando se dice "probablemente el embarque llegará mañana", o 
cuando un corredor de bolsa asesora a un cliente sobre la posible alza de una acción, 
se está sugiriendo alguna idea de la probabilidad de ocurrencia de las afirmaciones 
anteriores. 

Para los ejemplos anteriores, la interpretación de la probabilidad no puede tener 
su fundamento en la frecuencia de ocurrencia. La probabilidad se interpreta como el 
grado de creencia o de convicción con respecto a la ocurrencia de una afirmación. En 
este contexto, la probabilidad representa un juicio personal acerca de un fenómeno 
impredecible. Esta interpretación de la probabilidad se conoce como subjetiva o per- 
sonal. 

Es importante hacer hincapié en que la probabilidad subjetiva también puede 
aplicarse a experimentos repetitivos. Por ejemplo, un jugador de blackjack puede, en 
un momento dado, decidir tomar otra carta y hacer caso omiso de su experiencia 
previa, debido a que cree que esto aumentará sus oportunidades de ganar la mano. 
El capitán de un equipo de fútbol puede pedir "cara" cuando la moneda se lance al 
aire, debido a que esa es su creencia con respecto al resultado de arrojarla. Con base 
en tales aplicaciones, la probabilidad subjetiva es considerada por muchos como 
más general que las otras dos interpretaciones. 

Para ilustrar la traslación de un grado de creencia en probabilidad, considere la 
siguiente situación: se pregunta a dos ingenieros petroleros, A y B, su opinión acerca 
de la posibilidad de descubrir petróleo en un determinado sitio. La respuesta de A es 
que él está seguro, en un 807o, de que se encontrará petróleo mientras que B lo está 
en un ?0%.* El porcentaje dado por los ingenieros es una medida de la creencia de 
éstos, con respecto al descubrimiento de petróleo. De esta manera se pueden asignar 
distintas medidas de creencia a la misma proposición. Pero ¿qué significado tienen 
realmente el 80% y 7%? La interpretación común es la siguiente. El ingeniero A pien- 

* Por implicación, A y B también están diciendo que se encuentran seguros, en un 20% y 30%, respecti- 
vamente, de que no será descubierto el petróleo. 



j¿ ^vncepios en prooaOUiúaü 

sa apostar ocho a dos (por ejemplo $8 contra $2 o cualquier otra cantidad de dólares 
que se encuentre en la misma proporción) a que el petróleo será descubierto en ese si- 
tio. De manera similar, B cree que es mejor apostar siete a tres (es decir $7 contra $3) 
para el mismo resultado. De esta manera, las probabilidades subjetivas de A y B se 
definen como las proporciones 8/(8 + 2) y 7/(7 + 3) respectivamente. En general si 
las apuestas en favor de una afirmación son de c a d, la probabilidad de ésta es 
c/{c + d). 

2.5 Desarrollo axiomático de la probabilidad 

Para formalizar la definición de probabilidad, a través de un conjunto de axiomas, 
se repasarán brevemente los conceptos básicos de la teoría de conjuntos (o eventos), 
sobre los cuales se fundamenta la definición formal de probabilidad. Esta definición 
es tan general que permite incorporar las distintas interpretaciones de la probabili- 
dad, mencionadas anteriormente. 

La colección de todos los posibles resultados de un experimento aleatorio es im- 
portante en la definición de la probabilidad. Para definir esta colección considérense 
los siguientes experimentos: el número de reservaciones no canceladas para un 
vuelo, el número de llegadas a un servicio o la duración de un determinado compo- 
nente. Todos son ejemplos de fenómenos impredecibles con un determinado número 
de posibles resultados. El número de reservaciones no canceladas puede ser cual- 
quier entero positivo no mayor que el número de asientos del avión; el número de 
llegadas puede ser, teóricamente, cualquier entero positivo sin ningún límite, y la du- 
ración de un componente puede ser cualquier número real positivo. Lo anterior 
lleva, de manera inmediata, a la siguiente definición: 

Definición 2.3 El conjunto de todos los posibles resultados de un experimento 
aleatorio recibe el nombre de espacio muestra!. 

El conjunto de todos los posibles resultados puede ser finito, infinito numerable 
o infinito no numerable. Por ejemolo, el número de reservaciones sin cancelar cons- 
tituye un espacio muestral finito, dado que este número nunca excederá la capacidad 
del avión, que es finita. El número de llegadas al servicio constituye un espacio 
muestral infinito numerable, dado que es posible colocar ios resultados en una co- 
rrespondencia uno a uno con los enteros positivos, que constituyen un conjunto 
infinito pero numerable. La duración de una componente constituye un espacio 
muestral infinito innumerable, dado que esta puede ser cualquier número real positi- 
vo. En este momento, es conveniente dar las siguientes definiciones. 

Definición 2.4 Se dice que un espacio muestral es discreto si su resultado puede 
ponerse en una correspondencia uno á uno con el conjunto dé los enteros positivos. 

Definición 2.5 -<Se dice que un espacio muestral es continuo si sus resultados consis- v 
ten de un intervalo de números reales. - ^ 

Con respecto a los resultados de un espacio muestral, se puede estar particular- 
mente interesado en un subconjunto de éstos. Por ejemplo, un gerente de cierta linea 



2.5 Desarrollo axiomático de la probabilidad 33 

aérea desea saber si el número de reservaciones sin cancelar es menor que cinco, o 
bien un comprador de baterías desea saber si éstas tendrán una operación normal 
mayor de 40 horas. De esta manera, se tiene la siguiente definición: 

Definición 2.6 Un evento del espacio muestral es un grupo de resultados conteni- 
dos en éste, cuyos miembros tienen una característica común. 

Por característica común debe entenderse que únicamente un grupo de resulta- 
dos en particular satisface la característica y los restantes, contenidos en el espacio 
muestral, no. Se dice que ha ocurrido un evento si los resultados del experimento 
aleatorio incluyen a algunos de los que definen al evento. En este contexto, el espa- 
cio muestral, evento en sí mismo, puede entenderse como un evento seguro, puesto 
que se tiene un 100% de certidumbre de que ocurrirá un resultado del espacio 
muestral cuando el experimento se lleve a cabo. Para completar se dan las siguientes 
definiciones: 

Definición 2.7 El evento que contiene a ningún resultado del espacio muestral re- 
cibe el nombre de evento nulo o vacío. 

Deberán recordarse algunas definiciones de la teoría de eventos. Sean £, y E 2 
cualesquiera dos eventos que se encuentren en un espacio muestral dado denotado 
por S. 

Definición 2.8 El evento formado por todos los posibles resultados en E,oE 2 o en 
ambos, recibe el nombre de la unión de £, y £ ? y se denota por E\ U E 2 . 

Definición 2.9 El evento formado por todos los resultados comunes tanto a £, 
como a E 2 recibe el nombre de intersección de £i y E 2 y se denota por £, n £ 2 . 

Definición 2.10 Se dice que los eventos E, y E 2 son mutuamente excluyentes o dis- 
juntos si no tienen resultados en común; en otras palabras E, n E 2 = s evento 
vacío. 

Definición 2.11 Si cualquier resultado de E 2 también es un resultado de E, , se dice 
que el evento E 2 está contenido en £, , y se denota por E 2 C £| . 

Definición 2.12 El complemento de un evento E con respecto al espacio muestral 
S, es aquelque contiene a todos los resultados dé S que no se encuentran en E, y se de- 
nota por E. 

Las definiciones anteriores pueden demostrarse de mañera gráfica mediante el 
uso de los diagramas de Venn, como se muestra en la figura 2.1 . 

Como ejemplo, considérese el experimento de lanzar un dado; el espacio 
muestral es S (1 , 2, 3, 4, 5, 6). Se definen Ios-eventos E, = (2, 4¿'' ! 6) ; , s E 2 1,r = : (1 -, 3), 
y £ 3 = (2, 4). Es fácil verificar que £, U E 2 = (1,2, 3, 4, 6), £,n £ 3 =_{2,:- 
4), £j D E 2 = 0, £3 se encuentra completamente contenido en £, y £ 2 = 
(2,4,5,6).-' •■• - ■•'■-■■■'••••• ■'■*■ -;-■■■• •.= : '.;-i'-- o-...-. 



34 Conceptos en probabilidad 




I 




FIGURA 2.1 Diagramas de Venn que ilustran a) la unión de dos eventos; b) la intersección 
de dos eventos; c) eventos mutuamente excluyentes; d) un evento contenido en otro, y e) un 
evento ;y su complemento 



La probabilidad es un número real que mide la posibilidad de que ocurra un re- 
sultado del espacio muestral, cuando el experimento se lleve a cabo. Por lo tanto, la 
probabilidad de un evento también es un número real que mide la posibilidad colec- 
tiva, de ocurrencia, de los resultados del evento cuando se lleve a efecto el experi- 
mento. A continuación se da la definición axiomática de la probabilidad. 

Definición 2.13 Sean S cualquier espacio muestral y E cualquier evento de éste. Se 
llamará función de probabilidad sobre el espacio muestral S a P{E)si satisface los si- 
guientes axiomas: 

1 . P(E) 2* 

2. P(S) = 1 

3 . Si, para los eventos E,, E 2 , £* 3 , ..., 

E¡ n Ej : = para toda i ± j, entonces 
P(E, UE 2 U -) = /»(£,-) + P(E 2 ) + ••• . 

La razón de estos tres axiomas se convierte en aparente cuando, por ejemplo, se 
recuerda la interpretación de la probabilidad como una frecuencia relativa. Es decir, 
la probabilidad de un evento refleja la proporción de veces en que ocurrirá cuando el 
experimento se repita. Los axiomas también son evidentes para la interpretación 



2.5 Desarrollo axiomático de la probabilidad 35 

subjetiva de la probabilidad, dado que para ésta cualquier grado de creencia se con- 
vierte en una proporción. De ahí que las probabilidades exhiban las características 
de las proporciones, en las que la probabilidad es un número entre cero y uno, y 
dado que es forzoso que ocurra un resultado cuando se lleva a efecto un experimen- 
tó, la probabilidad de S es uno. Además si no hay ningún resultado en común entre 
dos eventos E t y E 2 , la probabilidad de que ocurra E t o E 2 es igual a la proporción de 
veces' en que ocurre E, más la proporción de veces en que ocurra E 2 . 

En seguida se demostrarán algunas de las consecuencias de estos tres axiomas. 

Teorema 2.1 Pi$) = 0. 

Demostración: 

v SU0 = SySn0 = 0. 
Por el axioma 3, 

P(S U 0) - P(S) + />(0); 
pero por el axioma 2, P(S) = 1, y de esta manera />(0) = 0. 

Teorema 2.2 Para cualquier evento E C S, *s P(E) =s 1 . 

Demostración: Por el axioma 1, P(E) 2= 0; de aquí que sólo es necesario pro- 
bar que P(E) *= 1. 

EUE = S y E(1E= 0. 
Por los axiomas 2 y 3, 

P(El) E) = P(E) + P(E) = P(S) = 1; 
dado que P(E) 5= o, P(E) «1. 

El axioma 3 da la probabilidad de la unión de dos eventos disjuntos. Por otro 
esta porción de la suma de P(A) y P(B). El teorema se reduce al axioma 3 cuando 
la probabilidad de la unión de dos eventos que no son, necesariamente, disjuntos? 
Para dar respuesta a las preguntas anteriores se enuncia el siguiente resultado gene- 
ral, el que usualmente recibe el nombre de regla de adición de probabilidades. 

Teorema 2.3 Sea 5 un espacio muestral que contiene a cualesquiera dos eventos A 
y B; entonces, 

P{A U B) = P(A) + P(B) - P(A n B). 

Aun cuando no se pretende dar aquí una demostración formal del teorema, éste 
es intuitivamente razonable. P(A) y P(B) reflejan el número de veces en que ocurri- 
rán los resultados de A y B, respectivamente. Sin embargo, y teniendo en cuenta lo 



I 



36 Conceptos en probabilidad 

anterior, los resultados comunes serán contados dos veces con la necesidad de restar 
esta porción de la suma de P(A) y P{B). El teorema se reduce al axioma 3 cuando 
los eventos son disjuntos. ■-: , 

Ejemplo 2.1 Ün sistema contiene dos componentes A y B, y se conecta de ma- 
nera que este funciona si cualesquiera de las componentes funciona. Se sabe que la 
probabilidad de que A funcione es P(A) = 0.9 y la de B es P(B) = 0.8 y la probabi- 
lidad de ambos es P(A n B) = 0.72. Determinar la probabilidad de que el sistema 
funcione. 

La probabilidad de que el sistema trabaje es igual a la probabilidad de la unión 
entre A y B; de esta manera, 

P{A UB) = P(A) + P(B) - P(A n B) 
= 0.9 + 0.8 - 0.72 = 0.98. 



2.6 Probabilidades conjunta, marginal y condicional 

En esta sección se examinan los conceptos de probabilidad conjunta, marginal y 
condicional, y se desarrolla la ley de multiplicación de probabilidades. Considérese un 
experimento en el que se elige aleatoriamente una persona adulta que viva en una 
ciudad con n personas adultas, y se anotan sus características con respecto a su hábi- 
tos de fumador y su sexo. Sea el espacio muestra] la población de adultos de la 
ciudad, que se divide en los siguientes eventos disjuntos: fumador A, y no fumador 
A 2 , hombre B, y mujer B 2 . Los eventos en S pueden representarse como se muestra 
en la tabla 2.3. 

Como ejemplo, nótese que n u de los n adultos son hombres que fuman, por lo 
que son poseedores de los atributos A t y 5, . Supóngase que se desea determinar la 
probabilidad de ocurrencia simultánea de los eventos A , y B 2 . Mediante el empleo de 
la interpretación de frecuencia relativa, puede argumentarse que, dado que exacta- 
mente n J2 de los n adultos poseen ambos atributos, A, y B 2 , la probabilidad es /i 12 /«. 
Esta última recibe el nombre de probabilidad conjunta puesto que se insiste en la 
probabilidad de resultados comunes a ambos eventos A¡ y B 2 . Por lo tanto la proba- 
bilidad de los eventos A¡ y Bj está dada por 

PÍA, n Bj) = n¡j/n. 



TABLA 2.3 Clasificación de n adultos mediante su sexo y hábitos de fumadores 



A, 
A, 



"ll 


«12 


"21 


«22 



2.6 Probabilidades conjunta, marginal y condicional 37 

Supóngase que ahora el interés recae en determinar la probabilidad' A,,, sin consi- 
derar cualquier otro evento B¡ del espacio muestral S. Para especificar, supóngase 
qué se necesita la probabilidad del evento A 2 . Haciendo uso de nuevo de la interpre- 
tación de frecuencia relativa, el número total de personas no fumadoras (A 2 ) es n 2i 
+ rt 22 ; de esta manera se tiene 

PÍA 2 ) = (« 2I + n) 2 )/n. 

Este tipo de probabilidad se conoce como marginal porque para determinarla se ig- 
noran una o mas características del espacio muestral. De lo anterior se sigue que 



pero dado que 



PÍA,) = ¿ n,j/n, 
PÍA, n Bj) = n^n, 

2 

PÍA,) = 2 PÍA, n Bj). 

7=1 

En otras palabras, la probabilidad marginal de un evento A, es igual a la suma de las 
probabilidades conjuntas de A¡ y Bj, donde la suma se efectúa sobre todos los even- 
tos Bj. De manera similar la probabilidad marginal de B¡ está dada por 

2 

PíBj) = 2 pía, n Bj). 

i= I 

En este punto ya debe ser obvia la extensión para incluir más de dos eventos disjuntos. 
Finalmente, supóngase que el interés recae en determinar la probabilidad de un 
evento A¡, dado que ha ocurrido el evento Bj. Por ejemplo, regresando a la tabla 
2. 3, supóngase que se ha elegido aleatoriamente una mujer adulta. ÍB 2 ) Ahora bien, 
¿cuál es la probabilidad de que fume? Una vez más, el argumento descansa sobre la 
interpretación de frecuencia relativa. Sin embargo, una vez que el evento "mujer" 
ha ocurrido, éste reemplaza a S como el espacio muestral de interés. Por lo tanto, la 
probabilidad de tener un fumador ÍA t ) es el número de mujeres que fuman (/; i: ) 
entre el número total de estas (/j l2 + « 22 ).Por lo tanto 

mi|£ 2 ) = «12/(1 1* + n 12 ), 

donde la barra vertical se lee como "dado que" y separa al evento A , , cuya probabi- 
lidad está condicionada a la previa ocurrencia del evento B 2 - Ésta recibe el nombre 
de probabilidad condicional de A , dada la ocurrencia de B 2 . En general, se tiene que 

2 

P(A]lBj) = n ¡ j/'Zn (i , (2.1) 



38 Conceptos en probabilidad 

y por simetría, - ■■ v\ ■,.;.-;;-: n-tS*x. ■■ ■ ^ ■•, •■■••,■ ■■■\.>;'^ ),■':, --^' •(:- 

?/ .-..■•(2.2) 



f,K) = #¡¿2; n¡¿. x, . 




;L-E-..:-t*-!u,- -.- -. 


; ... 'j \ .v 



Al dividir el numerador y denominador del miembro derecho de (2.1) por n, se tiene 



uto) = -^ 



pero 



por lo tanto 



P(A, n 5,) = /i w //i 

2 



AAM) = ^£p. W>0, (2.3) 



y de manera equivalente 

P{B¿A.) = P(A ' f !^ ) , m,)>0. (2.4) 

Para definir las probabilidades conjunta, marginal y condicional se ha empleado 
un ejemplo específico en el que el espacio muestral contiene únicamente un número 
finito de resultados. Sin embargo, las definiciones dadas aquí son completamente 
generales y pueden extenderse para incluir cualquier espacio muestral ya sea discreto 
o continuo. Con base en lo anterior se define de la siguiente manera. 

Definición 2.14 Sean A y B cualesquiera dos eventos que se encuentran en un espa- 
cio muestral S de manera tal que P(B) > 0. La probabilidad condicional de A al 
ocurrir el evento B, es el cociente de la probabilidad conjunto de A y B con respecto 
a la probabilidad marginal de B; de esta manera se tiene 

P{A\B) = PiA Jl B \ P(B)>0. (2.5) 

r\ts) 

La relación entre (2.5) puede escribirse como un producto, lo que da como resul- 
tado la regla de multiplicación de probabilidades, dada por 

P(A n B) = P(B)P(A\B). (2.6) 



2.6 Probabilidades conjunta, margina/ y condicional 39 
Por simetría, la probabilidad condicional de B dada la ocurrencia de /l, es "V. r , 

'■'■'• ■■■■■-- wi^.^»^^--^ 

De esta manera se tiene ' > 

PG4 n j?> = p(/i)P(B|A) 

que es otra versión de la regla de multiplicación, la que implica que 

P(A)P(B\A) = P(BJP(A\B). (2.7) 

La definición 2.14 puede extenderse para incluir cualquier número de eventos 
que se encuentren en el espacio muestra!. Por ejemplo, puede demostrarse que para 
tres eventos A, B y C 

p ÍA\Bnc) = P{A p( 2^\ P(B<1C)>0 (2.8) 



P(AnB\C) = PiAn p *^ C \ P(C)>0. (2.9) 

Los siguientes ejemplos ilustrarán los conceptos presentados en esta sección. 

Ejemplo 2.2 A los habitantes de una gran ciudad se les hizo una encuesta con el 
propósito de determinar el número de lectores de Time y Newsweek. Los resultados 
de la encuesta fueron los siguientes: 20% de los habitantes leen el Time, el 16"% lee el 
Newsweek y un 17o lee ambos semanarios. Si se selecciona al azar a un lector de 
Time, ¿cuál es la probabilidad de que también lea el Newsweek? 

Sean A y B los eventos que representan el número de lectores del Time y News- 
week respectivamente; dado que P(A) = 0.2, P(B) = 0.16 y P(A D B) = 0.01, 

P(B|A) = 0.01/0.2 = 0.05. 

Por otra parte, también puede determinarse la probabilidad de que un lector del 
Newsweek lea también el Time; esto es 

P{A\B) = 0.01/0.16 = 0.0625, 

y se verifica la relación P(A)P{B\A) = P(B)P(A\B), o (0.2)(0.05) (0.16)(0.0625). 

Ejemplo 2.3 Muchas instituciones bancadas emplean modelos computarizados de 
crédito con el propósito de dar un determinado puntaje a todas las solicitudes 
de préstamo. Este puntaje se emplea como una ayuda para decidir cuándo se otorga 
el préstamo. Supóngase que el 3% de todos los préstamos que se otorgan presentan 
problemas por incumplimiento de pago y que los modelos de crédito son precisos en 



I 



40 Conceptos en probabilidad 

un 80% al predecir menos créditos. Si el 85% de todas las solicitudes reciben pun- 
tuaciones favorables por los modelos computarizados y se les otorga el préstamo, 
determinar la probabilidad de que una solicitud que recibe una puntuación favo- 
rable y a la que se le otorga el préstamo, no presente ningún problema para el pago 
de éste. 

Sea A el evento incumplimiento de pago y B la puntuación favorable. Del 
enunciado del problema se tiene que PÍA) = 0.03, P(B) = 0.85 y P{B\A) = 0.8, en 
donde A es el complemento de A, es decir, el evento cumplimiento de pago. Lo que 
se busca es la probabilidad condicional de que no exista ningún problema en el j>ago 
del préstamo, dado que la solicitud obtuvo una puntuación favorable, o P{A\B). 
Usando la relación (2.7), se tiene 

P(B)P(A\B) = P(A)P(B\A), 
o 

mm __ Pjtgm 

y dado que P(A) = 0.97, la probabilidad deseada es P(A\B) = 0.9129. 

Ejemplo 2.4 Una planta recibe reguladores de voltaje de dos diferentes proveedo- 
res, B¡ y B 2 ; el 75% de los reguladores se compra a B, y el resto a B 2 . El porcentaje 
de reguladores defectuosos que se reciben de 5, es 8% y el de B 2 es 10%. Determinar 
la probabilidad de que funcione un regulador de voltaje de acuerdo con las especifi- 
caciones (es decir, el regulador no está defectuoso). 

Sea A el evento el regulador de voltaje es no defectuoso. Es claro que ningún re- 
gulador de voltaje puede ser vendido tanto por B, como por B 2 ', por lo tanto fi, y B 2 
son disjuntos. Esto da como resultado 

P(A) = P(A n B¡) + P(A n B 2 ), 
pero 

P(AnB,) = P(B S )P(A\B,) 



P{A D B 2 ) = P{B 2 )P(A\B 2 ), 

en donde se conocen P{B¡) = 0.75, P(B 2 ) = 0.25, P{A\B t ) = 0.92, y P(A\B 2 ) = 
0.9; sustituyendo 

P(A) = P(B,)P(A\B S ) + P(B 2 )P{A\B 2 ) 

= (0.75X0.92) + (0.25X0.90) = 0.915. 

Nótese que en el ejemplo 2.4 se tienen únicamente dos proveedores, B s y B 2 . En 
general, si existen n alternativas disjuntas B x , B 2 ... B a , la probabilidad total de un 

B\, B 2 , ..., B„, 



2. 7 Eventos estadísticamente independientes 41 
resultado f} nal, por ejemplo A, está dada por , 



PW)'= 5/WWl*/)- 



(2.10) 



i» I 



2.7 Eventos estadísticamente independientes 

Al considerar la probabilidad condicional de algún evento A, dada la ocurrencia de 
otro evento B, siempre se implica que las probabilidades de A y B son de alguna ma- 
nera dependientes entre sí. En otras palabras, la información con respecto a la 
ocurrencia de B afectará la probabilidad de A. Supóngase que la ocurrencia de B no 
tiene ningún efecto sobre la probabilidad de A, en el sentido de que la probabilidad 
condicional P{A\B) es igual a la probabilidad marginal P{A), aun a pesar de que ha- 
ya ocurrido el evento B. Esta situación origina un concepto muy importante que se 
conoce como independencia estadística. 

Definición 2.15 Sean A y B dos eventos cualesquiera de un espacio muestral 5. Se 
dice que el evento A es estadísticamente independiente del evento B si P(A\B) = P(A). 



Algunas consecuencias de la definición 2.15 se convierten en evidentes en este 
momento, dado que 



P(A\B) = 



P(A n B) 
P{B) ' 



si A es independiente de B, 



Además, puesto que 



entonces 



P(A\B) = P(A) = 



P(A n B) 



P(B) 

P(A (IB) = P(A)P(B). 
P(A n B) = P(A)P(B\A), 
P(A)P(B) = P{A)P(B\A) 



, P(B) = P(B\A). 

Por lo tanto, puede concluirse que si un evento A es estadísticamente independiente 



42 Conceptos en probabilidad* ■•■ 

de B, entonces el evento B es independiente de A y se verifican las tres relaciones si- 
guientes: 

2. P(B\A) = P(B), y 

3. P(A HB) = P(A)P(B). 



;;>f.".r.*..-i 



i 



Con la siguiente definición se extenderá el concepto de independencia estadística. 

Definición 2.16 Los eventos A , , /4 2 . . . A k de un espacio muestral 5 son estadística- 
mente independientes si y sólo si la probabilidad conjunta de cualquier 2, 3 ... k de 
ellos es igual al producto de sus respectivas probabilidades marginales. 

De cía manera, los eventos A, By C son estadísticamente independientes, si y 
sólo si 

I.P(A(1B) = P(A)P(B), 

2. P(A fl C) = P(A)P(C), 

3. P(B n C) = P(B)P(C), y 

4. p(a n fl n o = P(A)/ , (fl)/ , (C) 

Ejemplo 2.5 Un sistema contiene cinco componentes que se encuentran conectadas 
entre sí como se muestra en la figura 2.2, donde las probabilidades indican la seguri- 
dad de que la componente funcione adecuadamente. Si se supone que el funciona- 
miento de una componente en particular es independiente del de las demás, ¿cuál es 
la probabilidad de que el sistema trabaje? 



P{B) = 0.90 P(D) = 0.93 
B) 1 i ( D 



<¿>— 



/>C4) = 0.98 




P(C) = 0.95 



P(E)=0.91 



FIGURA 2.2 Configuración de un sistema con cinco componentes 



2.8 El teorema de Bayes 43k 

Establecida la suposición de independencia, el sistema puede trabajar si las con!? 
ponentes A y 3 y/o C, y D y/o E lo hacen. De esta manera, la probabilidad de que éí> 
sistema trabaje, P(F), puede expresarse como i ^:íh ^ ^ i 5 .t;^a\{fid ab 

W = ¿W(5 U C)/>(£> U £); - ,.., , , „; ,/ n 

pero nótese que^ P{B U_C) = 1 - P(B)P(C) y P(D U E) = 1 - P(D)P(E),^ 
porque, por ejemplo P(B)P(C) es la probabilidad de que ño trabaje la componente 
B y tampoco la C. Por lo tanto, 

/>(F) = (0.98)(0.995)(0.9979) = 0.973. 



2.8 El teorema de Bayes 

Recuérdese el ejemplo 2.4. Supóngase que cuando se reciben los reguladores de vol- 
taje se almacenan de manera tal que no puede distinguirse el proveedor. Además, su- 
póngase que se desea determinar la probabilidad de que un regulador en particular 
fue vendido por el proveedor B 2 cuando se sabe que funciona de acuerdo con las es- 
pecificaciones. En este caso se busca la probabilidad condicional de B 2 dada la 
ocurrencia del evento /l. Por lo tanto 



pero 



PÍA) ' 
P(B 2 (1A) = P(B 2 )P(A\B 2 ) 
P(B 2 )P(A\B 2 ) 



P(B 2 \A) = 



PÍA) 



asi que, 



WM> - ^|f - 0.2459. 

Se puede generalizar el método empleado para resolver este problema, con el fin 
de originar el teorema de Bayes. 

Teorema 2.4 Si B t , B 2 , . .., B n son n eventos mutuamente excluyentes, de los 
cuales uno debe ocurrir, es decir S" = , P(B¡) = 1 , entonces 

*»»)- . P(B ' )P(A]B ' ) ./-I.» "• CID 

La expresión dada por (2.11) fue desarrollada por el reverendo Thomas Bayes 
(1702-1761) y se conoce como teorema de Bayes. A primera vista no es más que 
una aplicación de las probabilidades condicionales. Sin embargo, ha sido clave en el 



44 Conceptos en probabilidad 

desarrollo de la inferencia estadística bayesiana en la que se emplea la interpreta- 
ción subjetiva de la probabilidad. Tal como se indicó en el capítulo uno, la inferen- 
cia bayesiana no se tratará con detalle en este libro, Sin embargo, se^considerarán 
algunas cuestiones bayesianas de vez en cuando, de manera que el lector pueda obte- 
ner una mejor perspectiva de la inferencia estadística. Los siguientes son ejemplos del 
análisis bayesiano. , ,. ^ 

Supóngase que un investigador conduce un experimento en el que sabe que el re- 
sultado de interés estará afectado por cualquiera de las n alternativas B x , B 2 ... B n 
que predomine. A pesar de que no está seguro cuál de todas las alternativas predo- 
minará, posee cierta información con base en la cual está dispuesto a formular un 
juicio subjetivo para las probabilidades de ocurrencia de las n alternativas. De esta 
forma, asigna probabilidades P(B t ), P(B 2 ) ... PfBJ para las n alternativas antes de 
obtener cualquier evidencia experimental. Dado que estas probabilidades reflejan el 
juicio o graao de creencia del investigador con respecto a las ocurrencias del?,, B 2 ... 
B„ antes de que éstas se presenten se conocen como pro h ab i,f dades a priori. Con 
ello el investigador obtendrá una evidencia experimental a partir de un conjunto de 
datos que se denota por A, y se observa bajo una alternativa especifica B¡. En este 
momento se pueden calcular las probabilidades condicionales P(A\Bj). Éstas permi- 
tirán la determinación de la probabilidad B¿ dada la evidencia experimental A , me- 
diante el empleo del teorema de Bayes. Las probabilidades condicionales P(Bj\A), j 
= 1, 2, ..., n se conocen como probabilidades a posteriori porque se determinan 
una vez obtenida la evidencia experimental. Por lo tanto, las probabilidades P(Bj\A) 
reflejan el grado de creencia corregido con respecto a las alternativas B x , B 2 , ... B n 
después de obtener los datos experimentales. 

Ejemplo 2.6 Durante los últimos años se ha escrito mucho sobre la posible rela- 
ción entre el fumar y el cáncer pulmonar. Supóngase que en un centro médico, de to- 
dos los fumadores de quienes se sospecha que tenían cáncer pulmonar, el 90% lo tenía 
mientras que únicamente el 5% de los no fumadores lo padecía. Si la proporción de 
fumadores es de 0.4S, ¿cuál es la probabilidad de que un paciente con cáncer pulmo- 
nar, seleccionado al azar, sea fumador? 

Sean B, y B 2 los eventos "el paciente es fumador" y "el paciente es no fumador" 
respectivamente, y sea A el evento "el paciente tiene cáncer pulmonar". B, y B 2 son 
las alternativas que pueden predominar. Se supone que las probabilidades a priori, 
para estas dos alternativas, son 0.45 y 0.55 respectivamente. Si un paciente tiene o 
no cáncer pulmonar puede estar afectado por cualquiera de las dos alternativas que 
predominen y que constituyen la evidencia experimental. Se sabe que P(A\B, ) = 0.9 
y P(A\B 2 ) = 0.05. Se desea determinar la probabilidad a posteriori de selec- 
cionar un fumador, puesto que el paciente tiene cáncer, o P(B¡\A). 

Del teorema de Bayes se tiene 

P(B,)P(A\B,) 



P(B,\A) = 



P(B,)P(A\Bi) + P(B 2 )P(A\B 2 ) 
(0.45X0.9) 



(0.45)(0.9) + (0.55X0.05) 
= 0.9364. 



2. 9 Permutaciones y combinaciones 45 

La probabilidad de que un paciente con cáncer pulmonar, seleccionado aleato- 
riamente sea fumador, es de 0.9364. ' ■,-íf ,,, :í!'r(,;.|fl^ 

:::■■.-. ;*a73 1 ¡;, y.-n^o i% 5h ssííOíbíiiü»: 
Ejemplo 2. 7 Una compañía estudia la comercialización de un nuevo producto. 
El presidente de la compañía desea que el producto sea superior al de su más cercano 
competidor. Con base en una evaluación preliminar que realizó el personal clave, se 
decide asignar una posibilidad del 50% de que el producto sea superior al ofrecido 
por el competidor, 30<7o de que tenga la misma calidad y un 20% de que sea inferior. 
Un estudio de mercado sobre el producto concluye que éste es superior al del compe- 
tidor. Con base en la experiencia sobre los resultados de las encuestas, se determina 
que si el producto realmente es superior, la probabilidad de que la encuesta alcance 
la misma conclusión es 0.7. Si el producto tiene la misma calidad que el del competi- 
dor, la probabilidad de que la encuesta dé como resultado un producto superior es 
0.4. Si el producto es inferior, la probabilidad de que la encuesta indique un produc- 
to superior es de 0.2. Dado el resultado de la encuesta, ¿cuál es la probabilidad, 
corregida, de obtener un producto superior? 

Este es un ejemplo en el que ilustra cómo una organización puede actualizar y re- 
visar las probabilidades iniciales al tener disponible nueva información. Sean 5, , B 2 
y Z? 3 los eventos el producto es superior, tiene la misma calidad y es inferior al del 
competidor, respectivamente. Las probabilidades a priori correspondientes son 0.5, 
0.3 y 0.2. Sea A el evento "la encuesta revelará un producto superior". Las proba- 
bilidades condicionales que involucran una evidencia experimental son P(A\B¡) = - 
0.7, P(A\B 2 ) = 0.4 y P(A\B } ) = 0.2. La probabilidad a posteriori P(B¡\A) desea- 
da es: 

p( Bi \a) « *wm 



/ > (fi,)/'(A|fi 1 ) + P(B 2 )P(A\B 2 ) + P(B } )P(A\B } ) 
= 0.6863. 



2.9 Permutaciones y combinaciones 

Para calcular las probabilidades de varios eventos es necesario contar el número de 
resultados posibles de un experimento, o contar el número de resultados que son fa- 
vorables a un evento dado. El proceso de conteo puede simplificarse mediante el 
empleo de dos técnicas de conteo denominadas permutaciones y combinaciones. 

lina permutación es un arreglo en un orden particular, de los objetos que forman 
un conjunto. Por ejemplo, considere las diferentes formas en que pueden situarse las 
letras a, byc. Para la primera posición puede elegirse a cualquiera de las tres letras; 
para la segunda se puede escoger a cualquiera de las dos restantes y para la tercera 
debe seleccionarse la letra que no se utilizó. Así existen 3x2x1 = 6 maneras en las 
que pueden arreglarse tres letras. Los seis arreglos o permutaciones son: 

abe, acb, bac, bea, cab, cba. 



46 Conceptos er probabilidad 

empleando el mismo razonamiento, el número total de maneras en que pueden 
arreglarse las letras a,b, cy</es4x3x2x 1 = 24. En general, el número de per- 
mutaciones de n objetos diferentes es: 

n(n- Din - 2) ••• (2)(1). (2.12) 

El producto de un entero positivo por todos los que le preceden se denota por ni 
y see lee "n factorial". Por ejemplo, 2! = 2 x 1 = 2, 3! = 3 x 2 x 1 = 6, 4! = 4 
x 3 x 2 x 1 = 24, etc. Nótese que de (2.12) se tiene: 

n(n - 1)! = n! 



(« - 1)! = n\/n. 
De esta manera, cuando n = 1, se define a 0! = 1. I 



En este punto se examinarán las permutaciones de n objetos, si únicamente r =s n 
de éstos se emplean en cualquier ordenamiento. Igualmente, para la primera posi- 
ción se puede seleccionar cualquiera de los n objetos, para la segunda uno de los res- 



í 

i 

tantes n - 1, y se continúa el procedimiento hasta la r-ésima posición. En este j 

momento se han empleado r - 1 objetos, quedando /i - (r - 1), a partir de los cuales ' 

se hace la selección. Por lo tanto, el número de permutaciones de n objetos si se toma f 

r a la Vez es: 1 

P{n, r)* = n(n - l)(n - 2) - (n - r + 1) 

n(n - l)(n - 2) - (n - r + 1)(« - r)l 



in 



ni 



in - r)!' (2.13) 

Nótesequesir = n, (2.13) se reduce al resultado anterior P(n, n) = «!, oelnúmero 1 

de permutaciones de n objetos, tomando n a la vez, es ni. \ 

i 

Ejemplo 2.8 En muchos Estados de la Unión Americana, las placas de los automó- 
viles, se identifican por tres letras y tres números. ¿Cuál es el número total si ningu- 
na letra de placas posible puede usarse más de una ocasión en la misma placa? ¿Cuál 
es el número total sin esta restricción? 

Con la restricción, el número de permutaciones que puede obtenerse con las 26 
letras del alfabeto, tomadas tres a la vez, es: 



* Esta es una de las muchas formas de denotar el número de permutaciones de n objetos tomando r a la 
vez. Otros símbolos empleados son „/",, P", P H , y (n),. 



2. 9 Permutaciones y combinaciones 47 

Dado que a cada uno de los 15 600 arreglos de tres letras se les puede asignar 1 000 
diferentes números de tres dígitos (000-999), el número total de placas es de 
15 600 000. Sin la restricción, que es. la práctica usual, las seis posiciones en una 
placa de automóvil pueden ocuparse de la siguiente forma: cada una de las tres pri- 
meras posiciones puede ocuparse de 26 maneras diferentes, mientras que cada una 
de las tres posiciones restantes puede ocuparse en una de diez formas posibles; dado 
que existen 26 letras y diez números, respectivamente. De esta manera el número to- 
tal de placas de automóvil es 26 x 26 x 26 x 10x10 x 10 = 17 576 000. 

Una combinación de los objetos de un conjunto es una selección de éstos sin im- 
portar el orden. Se entenderá por el número de combinaciones de r objetos tomados 
de un conjunto que contiene a n de éstos, al número total de selecciones distintas en 
las que cada una de éstas contiene r objetos. La diferencia entre una permutación y 
una combinación es que en la primera el interés se centra en contar todas las po- 
sibles selecciones y todos los arreglos de éstas, mientras que en la segunda el interés 
sólo recae en contar ci numero de selecciones diferentes. De esta manera abe y acá 
"on diferentes combinaciones de tres letras, mientras que acd y ade son distintas per- 
mutaciones de la misma combinación. Puede obtenerse el número de combinaciones 
de n objetos tomando r a la vez (denotada por (") y que se lee "n combinación r")> 
dividiendo el correspondiente número de permutaciones por r! dado que en cada 
combinación existen r! permutaciones. Por lo tanto: 



(:) 



") = P{n, r)¡r\ 



ni 



De (2.14) puede notarse que: 



(n - r)\r\ 



" ! =»; 



(2.14) 



n) {n - n)\n\ 
0/ (n - 0)! 0! 



n- \ [n - (« - !)]!(« - 1)! 



= n; 



v « - r) [„-(„- r )]\( n - r )\ \ r 
Dos ejemplos específicos son: 

^5\ 5! 5x4x3! 



2/ (5 - 2)! 2! 3!2! 



= 10, 



* Otros símbolos comúnmente empleados para denotar el número de combinaciones de n objetos, toman- 
do r a la vez, son C(n,r), „C r , C,, y C„.,. 



48 Conceptos en probabilidad 



(?)" 



10 V 10! 10 x 9 x 8! A . 

= 45. 



2/ (10 - 2)! 2! 8! 2! 



Ejemplo 2.9 Supóngase que van a enviarse cinco jueces federales a cierto Estado. 
El jefe del senado estatal envía al presidente una lista que contiene los nombres de 
diez hombres y cuatro mujeres. Si el presidente decide que de los cinco jueces tres de- 
ben ser hombres y dos mujeres ¿de cuántas maneras puede lograrse lo anterior, 
empleando a los candidatos de la lista? 

El número de maneras distintas en que pueden seleccionarse tres hombres de 
entre diez es: 

\0\ 10 x 9 x 8 x 7! = 



3/ 7! 3! 

Asimismo, el número de maneras en que pueden seleccionarse dos mujeres de entre 
cuatro es: 

4\ 4x3x2! 

= 6. 



2/ 2! 2! 

Puesto que el número de maneras en que pueden seleccionarse tres hombres de entre 
diez es 120, y el de dos mujeres de entre cuatro es seis, el número de maneras en que 
ambos eventos pueden ocurrir es: 

'•) (<) - m 



Referencias 

1. P, G. Hoel, Introduction to mathematical siatistics, 4th ed., Wiley, New York, I97L 

2. A. M. Mood and F. A. Graybill, Introduction to the theory ofstatistics, 2nd ed., McGraw- 
Hill, New York, 1963. 



Ejercicios 

2.1. Los empleados de la compañía New Horizons se encuentran separados en tres divi- 
siones: administración, operación de planta y ventas. La siguiente tabla indica el núme- 
ro de empleados en cada división clasificados por sexo: 



Mujer (M) Hombre (H) Totales 



Administración (A) 20 30 50 

Operación de planta (O) 60 140 200 

Ventas (V) 100 50 150 

Totales 180 220 400 



Ejercicios 49 

a) Usar un diagrama de Venn para ilustrar los eventos O y M para todos los empleados 
de la compañía. ¿Son mutuamente excluyentes? 

b) Si se elige aleatoriamente un empleado: ■'--■■..■>• ■"■■•■ 

1. ¿Cuál es la probabilidad de que sea mujer? 

2. ¿Cuál es la probabilidd de que trabaje en ventas? 

3. ¿Cuál es la probabilidad de que sea hombre y trabaje en la división de adminis- 
tración? \ 

4. ¿Cuál es la probabilidad de que trabaje en la división de operación de planta, si es 
mujer? 

5. ¿Cuál es la probabilidad de que sea mujer si trabaja en la división de operación de 
planta? 

c) ¿Son los eventos V y H estadísticamente independientes? 

d) ¿Son los eventos A y M estadísticamente independientes? 

e) Determinar las siguientes probabilidades: 

1. P(A U M) 3. P(0 D F) 

2. mUW) 4. P{M\A) 

2.2. Con la definición 2. 14 demuéstrese que para cualesquiera dos eventos, A y B, P(A\B) + 
P(Á\B) = 1, con tal de que P(B) £ 0. 

2.3. Sean A y B dos eventos cualquiera de S. Si A y B son mutuamente excluyentes, muéstre- 
se que no pueden ser independientes. Dedúzcase cuándo dos eventos independientes 
son, también, mutuamente excluyentes. 

2.4. Sean A y B dos eventos cualquiera de S. Empléese un diagrama de Venn para demos- 
trar que P(A D B) = P(A) - P(A D B). 

2.5. Una familia tiene tres hijos. Determinar todas las posibles permutaciones, con respecto 
al sexo de los hijos. Bajo suposiciones adecuadas, ¿cuál es la probabilidad de que, exac- 
tamente, dos de los hijos tengan el mismo sexo?, ¿cuál es la probabilidad de tener un va- 
rón y dos mujeres?, ¿cuál es la probabilidad de tener tres hijos del mismo sexo? 

2.6. Se extraen, sin reemplazo, dos cartas de una baraja. ¿Cuál es la probabilidad de que am- 
bas sean ases? 

2.7. Se lanza una moneda diez veces y en todos los lanzamientos el resultado es cara. ¿Cuál 
es la probabilidad de este evento?, ¿cuál es la probabilidad de que en el decimoprimero 
lanzamiento el resultado sea cruz? 

2.8. Una agencia automotriz recibe un embarque de 20 automóviles nuevos. Entre éstos, dos 
tienen defectos. La agencia decide seleccionar, aleatoriamente, dos automóviles de entre 
los 20 y aceptar el embarque si ninguno de los dos vehículos seleccionados tiene defec- 
tos. ¿Cuál es la probabilidad de aceptar el embarque? 

2.9. Se lanza una moneda con una probabilidad de 2/3 que el resultado sea cara. Si apare- 
ce una cara, se extrae una pelota, aleatoriamente, de una urna que contiene dos pelotas 
rojas y tres verdes. Si el resultado es cruz se extrae una pelota, de otra urna, que con- 
tiene dos rojas y dos verdes. ¿Cuál es la probabilidad de extraer una pelota roja? 

2.10. De entre 20 tanques de combustible fabricados para el transbordador espacial, tres se 
encuentran defectuosos. Si se seleccionan aleatoriamente cuatro tanques: 

a) ¿Cuál es la probabilidad de que ninguno de los tanques se encuentre defectuoso? 

b) ¿Cuál es la probabilidad de que uno de los tanques tenga defectos? 



50 Conceptos en probabilidad 



2.11. La probabilidad de que cierto componente eléctrico funcione es de 0.9. Un aparato con- 
tiene dos de éstos componentes. El aparato funcionará mientras lo haga, por lo menos, 
uno de los componentes. - 

a) Sin importar cuál de los dos componentes funcione o no, ¿cuáles son los posibles re- 
sultados y sus respectivas probabilidades? (Puede suponerse independiencia en la opera- 
ción entre los componentes.) 

b) ¿Cuál es la probabilidad de que el aparato funcione? 

2.12. Un sistema contiene tres componentes A, ByC. Estos pueden conectarse en una, cual- 
quiera, de las cuatro configuraciones mostradas en la figura 2.3. Si los tres componentes 
operan de manera independiente y si la probabilidad de que uno, cualquiera de ellos, 
esté funcionando es de 0.9S, determinar la probabilidad de que el sistema funcione para 
cada una de las cuatro configuraciones. 

2.13. Una forma de incrementar la probabilidad de operación de un sistema (conocida como 
la confiabilidad del sistema), es mediante la introducción de una copia de los compo- 
nentes en una configuración paralela, como se ilustra en la segunda parte de la figura 
2.3. Supóngase que la Nasa desea una probabilidad no menor de 0.999 99, de que el 
transbordador espacial entre en órbita alrededor de la tierra, con éxito. ¿Cuántos moto- 
res cohete deben configurarse en paralelo para alcanzar esta confiabilidad de operación 
si se sabe que la probabilidad de que uno, cualquiera, de los motores funcione ade- 
cuadamente es de 0.95? Supóngase que los motores funcionan de manera independiente 
entre sí. 



i 



B 



B 





A 








B 
















C 

















FIGURA 2.3 Cuatro configuraciones para tres componentes 



Ejercicios 51 



2. 14. Supóngase que la probabilidad de que los Potros de Baltimore ganen el campeonato de 
la Conferencia Americana es de 0.25, y la probabilidad de que lo obtengan los Cargado- 
res de San Diego es de 0.20. Además, la probabilidad de que el campeón de la Conferen- 
cia Americana gane el Super Tazón es 0.4S, 0.5S o 0.35, dependiendo de si los Potros, 
los Cargadores o algún otro equipo gana el campeonato. 

a) ¿Cuál es la probabilidad de que un equipo de la Conferencia Americana gane el Su- 
per Tazón? 

b) Si un equipo de la Conferencia Americana gana el Super Tazón, ¿cuál es la probabi- 
lidad de que los Potros de Baltimore ganen el título de su Conferencia? 

2.15. El 57o de las unidades producidas en una fábrica se encuentran defectuosas cuando el 
proceso de fabricación se encuentra bajo control. Si el proceso se encuentra fuera de 
control, se produce un 307b de unidades defectuosas. La probabilidad marginal de que el 
proceso se encuentre bajo control es de 0.92. Si se escoge aleatoriamente una unidad y se 
encuentra que es defectuosa, ¿cuál es la probabilidad de que el proceso se encuentre 
bajo control? 

2.16. Una planta armadora recibe microcircuitos provenientes de tres distintos fabricantes B t , 
B 2 y B 3 . El 507b del total se compra a B t mientras que a B 2 y B¡ se les compra un 25% a 
cada uno. El porcentaje de circuitos defectuosos para i?, , B 2 y B } es 5, 10 y 127b respec- 
tivamente. Si los circuitos se almacenan en la planta sin importar quién fue el proveedor: 

a) Determinar la probabilidad de que una unidad armada en la planta contenga un cir- 
cuito defectuoso. 

b) Si un circuito no está defectuoso, ¿cuál es la probabilidad de que haya sido vendido 
por el proveedor B 2 1 

2.17. Un inversionista está pensando en comprar un número muy grande de acciones de una 
compañía. La cotización de las acciones en la bolsa, durante los seis meses anteriores, es 
de gran interés para el inversionista. Con base en esta información, se observa que la 
cotización se relaciona con el producto nacional bruto. Si el PNB aumenta, la probabili- 
dad de que el valor de las acciones aumente es de 0.8. Si el PNB es el mismo, la probabi- 
lidad de que ias acciones aumenten su valor es de 0.2. Si el PNB disminuye, la probabilidad 
es de sólo 0.1. Si para los siguientes seis meses se asignan las probabilidades 0.4, 0.3 
y 0.3 a los eventos, el PNB aumenta, es el mismo y disminuye, respectivamente, deter- 
minar la probabilidad de que las acciones aumenten su valor en los próximos seis meses. 

2.18. Con base en varios estudios una compañía ha clasificado, de acuerdo con la posibilidad 
de descubrir petróleo, las formaciones geológicas en tres tipos. La compañía pretende 
perforar un pozo en un determinado sitio, al que se le asignan las probabilidades de 
0.35, 0.40 y 0.25 para los tres tipos de formaciones respectivamente. De acuerdo con la 
experiencia, se sabe que el petróleo se encuentra en un 407o de formaciones del tipo I, en 
un 207o de formaciones del tipo II y en un 307o de formaciones del tipo III. Si la 
compañía no descubre petróleo en ese lugar, determínese la probabilidad de que exista 
una formación del tipo II. 



CAPÍTULO TRES 



Variables aleatorias y 
distribuciones de probabilidad 



3.1 El concepto de variable aleatoria 

En el capítulo dos se examinaron los conceptos básicos de probabilidad con respecto 
a eventos que se encuentran en un espacio muestral. Los experimentos se conciben 
de manera que los resultados del espacio muestral son cualitativos o cuantitativos. 
Como ejemplos de resultados cualitativos se tienen: a) el lanzamiento de una mone- 
da es "cara" o "cruz"; b) un producto manufacturado en una fábrica puede ser 
"defectuoso" o "no defectuoso", o c) una persona en particular puede preferir la 
loción X sobre la loción Y. Puede ser útil la cuantificación de los resultados cualita- 
tivos de un espacio muestral y, mediante el empleo de medidas numéricas, estudiar 
su comportamiento aleatorio. El concepto de variable aleatoria proporciona un me- 
dio para relacionar cualquier resultado con una medida cuantitativa. 

Definición 3.1 Sea S un espacio muestral sobre el que se encuentra definida una 
función de probabilidad. Sea A' una función de valor real definida sobre S, de mane- 
ra que transforme los resultados de S en puntos sobre la recta de los reales. Se dice 
entonces que X es una variable aleatoria. 

Se dice que X es "aleatoria" porque involucra la probabilidad de los resultados 
del espacio muestral, y X es una función definida sobre el espacio muestral, de ma- 
nera que transforma todos los posibles resultados del espacio muestral en cantidades 
numéricas. 

Par ilustrar la noción de variable aleatoria, considérese el lanzamiento de una 
moneda. El espacio muestral está constituido por dos posibles resultados, "cara" y 
"cruz". Sea A(cruz) = y Arcara) = 1; de esta manera se han transformado los 
dos posibles resultados del espacio muestral en puntos sobre la recta de los reales. 
Por P(X = 0) se entenderá la probabilidad de que la variable aleatoria tome el 
valor cero o, de manera equivalente, la probabilidad de que caiga cruz cuando se 
lance la moneda. Como ejemplo adicional, considérese el lanzamiento de dos dados 



3.2 Distribuciones de probabilidad de variables aleatorias discretas 53 

indistinguibles y los 36 posibles resultados, como se muestra en la tabla 2.1. Se defi- 
ne como variable aleatoria A - a la suma de los valores de las dos caras de los dados. 
La tabla 3.1 relaciona los 36 resultados con los valores correspondientes de la va- 
riable aleatoria X y sus probabilidades. La naturaleza probabilistka de la variable 
aleatoria X, la suma de las dos caras, puede observarse el granear cada valor de X 
contra su probabilidad como se muestra en la. figura 3.1. 

Para cada uno de los ejemplos anteriores, eí número de posibles valores de la va- 
riable aleatoria es finito. Sin embargo, se pueden definir variables aleatorias cuyos 
valores, sean contables o no. Ya que una variable aleatoria es una caracterización 
cuantitativa de los resultados de un espacio muestral, esta posee intrínsecamente la 
naturaleza discreta o continua de este espacio. 

Definición 3.2 Se dice que una variable aleatoria X es discreta si el número de valo- 
res que puede tomar es contable (ya sea finito o infinito), y si estos pueden arreglarse 
en una secuencia que corrc:pc~:de con los enteros positivos. 

Definición 3.3 Se dice que una variable aleatoria X es continua si sus valores con- 
sisten en uno o mas intervalos de la recta de los reales. 



3.2 Distribuciones de probabilidad de variables aleatorias discretas 

En esta sección se considerará el concepto de distribución de probabilidad de una va- 
riable aleatoria. En la figura 3. 1 se muestra la gráfica de los valores correspondientes 
a la variable aleatoria que respresenta la suma de las caras de los dos dados, cuando 
éstos se tiran. En general, una variable aleatoria discreta X representa los resultados 
de un espacio muestral en forma tal que por P(X = x) se entenderá la probabilidad 
de que X tome el valor de x. De esta forma, al considerar los valores de una variable 
aleatoria es posible desarrollar una función matemática que asigne una probabilidad 
a cada realización x de la variable aleatoria X. Esta función recibe el nombre defun- 



TABLA 3.1 Correspondencia entre los resultados del lanzamiento de un par de dados y la 
variable aleatoria que representa la suma de las caras 







Valor de la 


Número de 




Resultado 




variable aleatoria 


ocurrencias 


Probabilidad 


(1,1) 




2 


1 


1/36 


(1,2), (2,1) 




3 


2 


2/36 


(1,3), (2,2), (3,1) 




4 


3 


3/36 


(1,4), (2,3), (3,2), (4,1) 




5 


4 


4/36 


(1,5), (2,4), (3,3), (4,2), 


(5,1) 


6 


5 


5/36 


(1,6), (2,5), (3,4), (4,3), 


(5,2), (6,1) 


7 


6 


6/36 


(2,6), (3,5), (4,4), (5,3), 


(6,2) 


8 


5 


5/36 


(3,6), (4,5), (5,4), (6,3) 




9 


4 


4/36 


(4,6), (5,5), (6,4) 




10 


3 


3/36 


(5,6), (6,5)' 




11 


2 


2/36 


(6,6) 




12 


1 


1/36 



54 Variables aleatorias y distribuciones de probabilidad 



O/JO 






-. •' ; 


■■% 












■ > T 






5/36 


- 








4/36 










•o 
2 














■8 3/36 

JO 

o 

I-I 

a. 


















2/36 






















1/36 



























8 9 10 11 12 x 



FIGURA 3.1 Probabilidad para las sumas de las caras de dos dados 

ción de probabilidad* de la variable aleatoria X. El término más general, distri- 
bución de probabilidad, se refiere a la colección de valores de la variable aleatoria y 
a la distribución de probabilidades entre éstos. Sin embargo, hacer referencia a la 
distribución de probabilidad de X no sólo implica la existencia de la función de pro- 
babilidad, sino también la existencia de la función de distribución acumulativa 
átX. 

Definición 3.4 Sea X una variable aleatoria discreta. Se llamará a /?(jc) = P(X = jc) 
función de probabilidad de la variable aleatoria X, si satisface las siguientes pro- 
piedades: 

1 . p(x) > para todos los valores x de X; 

2. 2,/rtjr) = 1. 

Definición 3.5 La función de distribución acumulativa de la variable aleatoria X 
es la probabilidad de que X sea menor o igual a un valor específico dexy está dada 
por: 

F(x) = P(X^x)= 2 p( X¡ ). 



* El nombre completo de esta función es el defunción música de probabilidad de una variable aleatoria 
discreta. 



3.2 Distribuciones de probabilidad de variables aleatorias discretas 55 

Por lo tanto, en el caso discreto, una variable aleatoria A está caracterizada por 
la función dé probabilidad puntual p^, la cual determina la probabilidad puntual 
de que A" = x, y por la función de distribución acumulativa/^, la que representa la 
suma de las probabilidades puntuales hasta el valor x de A inclusive. Nótese que las 
definiciones anteriores son consistentes con los axiomas de probabilidad, ya que esta 
función no es negativa para cualquier valor de la variable aleatoria y la suma de las 
probabilidades para todos los valores de A" es igual a uno. 



Ejemplo 3. 1 Considérese de nuevo el lanzamiento de dos dados. Si A" es la variable 
aleatoria que representa la suma de las caras, la función de probabilidad de A es 



P(x) = 



• 6 - |7 - x\ 

36 




x = 2,3 12, 

para cualquier otro valor 



(3.1) 



Con (3.1), pueden determinarse las probabilidades para varios valores de A con- 
tenidos en la tabla 3 . 1 y cuya gráfica se muestra en la figura 3.1. Además, puede eva- 
luarse la función de distribución acumulativa de A de la siguiente forma: 



F(l) 
F(2) 
FO) 
F (4) 
F(5) 
F(6) 
F (1) 
F(8) 
F i9) 
F(10) 
F(ll) 
F(12) 



P{X *z 
P(X^ 
P{X *z 
P{X *z 
P(X =£ 
P(X s; 
P(X s; 
P(X =£ 
P(X =£ 
P(X ss 



1) 
2) 
3) 
4) 
5) 
6) 
7) 
8) 
9) 
10) 



P(X ^ II) 

P(X =£ 12) 





1/36 

3/36 

6/36 

10/36 

15/36 

21/36 

26/36 

30/36 

33/36 

35/36 

1. 



Nótese que: 



P(X > 7) = 1 - P(X ^ 7) = 1 - F(7) = 15/36; 

P(X = 7) = P(X ^ 7) - P(X ^ 6) = F(7) - F(6) = 6/36; 

P(5 ss X =s 9) = P(X =s 9) - P{X *£ 4) = F(9) - F(4) = 24/36. 



56 Variables aleatorias y distribuciones de probabilidad 

En general, la función de distribución acumulativa f\x) de una variable aleatoria 
discreta es una función no decreciente de los valores de X, de tal manera que 

1. s£ F(x) s£ 1 para cualquier x; 

2. F(x¡) > F(xj) si x¡ > xf, 

3P(X>x) = 1 - F(x). 
Además, puede establecerse que para variables aleatorias de valor entero se tiene que: 

4. P(X = x) = F(x) - F(x - 1); 

5. P( X¡ « * « Xj ) = F( Xj ) - F( X¡ - 1). 

La gráfica de la distribución acumulativa del ejemplo 3.1 se muestra en la figura 
3.2. En esta figura es evidente que la función de distribución acumulativa de una va- 
riable aleatoria discreta es una función escalón, que toma un valor superior en cada 
salto. , 



36/36 



30/36 



25/36 



"£ 20/36 - 
15/36 - 



10/36 - 



5/36 - 



J L 



_L 



J l_ 



J L 



8 9 10 11 12 



FIGURA 3.2 'Representanción gráfica de la función de distribución acumulativa de la suma 
de las caras de dos dados, cuando éstos se lanzan 



3.3 Distribuciones de probabilidad de variables aleatorias continuas 57 

3.3 Distribuciones de probabilidad de variables aleatorias continuas 

En la sección anterior se trataron distribuciones de probabilidad para variables alea- 
torias discretas. En ésta se examinarán conceptos similares para variables aleatorias 
continuas. En el caso discreto, se asignan probabilidades positivas a todos los valo- 
res puntuales dé la variable aleatoria, pero la suma de todas ellas es uno aún a pesar 
de que el conjunto de valores sea infinito contable. Para el caso continuo, lo anterior 
no es posible. 

Por esta razón, la probabilidad de que una variable aleatoria continua X tome un 
valor específico x es cero. 

Se ilustrará el sentido de este resultado mediante el siguiente ejemplo: supóngase 
que se observa el intervalo entre dos llegadas consecutivas a un servicio. Si el disposi- 
tivo de medición puede medir el tiempo hasta una décima de segundo, entonces un 
intervalo de 83.4 seg puede realmente tomarse como la media y el verdadero valor 
puede encontrarse entre 83.35 y 83.45 seg. Por lo tanto, en el caso continuo es más 
lógico visualizar las probabilidades de intervalos que de puntos en particular. 

La distribución de probabilidad de una variable aleatoria continua X está carac- 
terizada por una función/^ que recibe el nombre defunción de densidad de proba- 
bilidad. Esta función f(x) no es la misma función de probabilidad que para el caso 
discreto. Como existe la probabilidad de que X tome el valor específico x es cero, la 
función de densidad de probabilidad no representa la probabilidad de que X = x. 
Más bien, ésta proporciona un medio para determinar la probabilidad de un interva- 
lo a =£ X *£ b. 

Para ilustrar lo que se entiende como función de densidad de probabilidad, su- 
póngase que se miden los tiempos, entre dos llegadas consecutivas, de 100 clientes a 
una tienda y se agrupan en diez intervalos de un minuto cada uno, como se muestra 
en la tabla 3.2. En este punto se grafican las frecuencias relativas para cada intervalo 
por medio de rectángulos, como se muestra en la figura 3.3, para indicar que la fre- 
cuencia se refiere al intervalo completo más que a un punto en particular del mismo. 
Nótese que, puesto que la base tiene una longitud igual a uno, el área de cada rectán- 
gulo es la frecuencia relativa del correspondiente intervalo y, por lo tanto, la suma 
de las áreas de todos los rectángulos es igual a uno. 



TABLA 3.2 Tiempos entre dos llegadas consecutivas, agrupados, de 100 clientes a un servicio 



<aas 



Intervalo Número de llegadas Frecuencia relativa 

< x « i 22 0.22 

1 < x =s 2 18 0.18 

2 < x *£ 3 17 0.17 

3 < x =£ 4 13 0.13 

4 < x « 5 14 0.14 

5 < x < 6 8 0.08 

6 < x « 7 6 0.06 

7 < x « 8 7 0.07 

8 < x =s ' 9 3 0.03 

9 < x « 10 2 0.02 



58 Variables aleatorias y distribuciones de probabilidad 

Supóngase que en lugar de observar los tiempos entre dos llegadas consecutivas 
de 100 clientes, se observan los tiempos para 1 000 clientes y se agrupan en 20 inter- 
valos de medio minuto cada uno; o bieh pueden observarse los tiempos para 10 000 
clientes agrupándolos en 40 intervalos de 15 segundos cada uno. Cada vez que esto 
se hace, se produce un histograma que es cada vez menos irregular, pero en el que la 
frecuencia sigue siendo prácticamente la misma. Al continuar este proceso de 
aumento del número de observaciones mientras se disminuye la amplitud de los in- 
tervalos de clase, se llegará a una curva límite. Esto es, cuando el número observado 
de tiempos, entre dos llegadas consecutivas, sea muy grande y la amplitud de los in- 
tervalos de clase sea muy pequeña, la frecuencia relativa aparecerá, en esencia, como 
una curva lisa. Con base en la figura 3.3, puede especularse que la curva límite para 
este ejemplo es la que se muestra en la figura 3.4. 

La función J{x), cuya gráfica es la curva limite que se obtiene para un número 
muy grande de observaciones y para una amplitud de intervalo muy pequeña, es la 
función de densidad de probabilidad para una variable aleatoria continua X, ya que 
la escala vertical se elige de manera que el área total bajo la curva es igual a uno. La 
función de densidad de probabilidad de una variable aleatoria continua X se define 
formalmente de la siguiente manera: 

Definición 3.6 Si existe una función f(x) tal que 

l./tx)2=0, -°°<;r<=c, 

2. \ J(x)dx = 1, y 

3. P(a « X *£ b) = í f(x)dx 

Ja 



0.25 


i- 




















0.20 

03 




















CU 

« 0.15 












CU 










1 0.10 










U, 
















0.05 








1 






r 


| 




1 2 3 4 5 6 7 i 


i 9 


10 x 



^ IGURA 3 3 Frecuencias relativas para los tiempos entre dos llegadas consecutivas, agrupa- 
dos en diez intervalos 



3.2 Distribuciones de probabilidad de vanaoies aleatorias cumuiuu* « 



es 

> 

■3 

I* 

*5 

a 

u 

3 
u 
u 



FIGURA 3.4 Curva límite para la frecuencia relativa de los tiempos de llegadas 



para cualesquiera a y b, entonces ./(x) es la función de densidad de probabilidad de la 
variable aleatoria continua X. 

Puesto que el área total bajo^x) es uno, la probabilidad del intervalo a *£ X =s 
b es el área acotada por la función de densidad y las rectas X = ayX = b, como se 
muestra en la figura 3.5. 




FIGURA 3.5 Probabilidad ilustrada como el área bajo la curva de densidad 



60 Variables aleatorias y distribuciones de probabilidad 

Al igual que en el caso de una variable aleatoria discreta, la función de distribu- 
ción acumulativa de una variable aleatoria continua A" es la probabilidad de que X 
tome un valor menor o igual a algún x específico. Esto es, 



P(X =s jc) 



= F <*> = L 



Mdt, 



(3.2) 



en donde t es una variable artificial de integración. Por lo tanto, la función de distri- 
bución acumulativa F\x) es el área acotada por la función de densidad que se en- 
cuentra a la izquierda de la recta X = x, como se ilustra en la figura 3.6. 
Dado que para cualquier variable aleatoria continua X, 



entonces: 



P(X = x) = £ f{t)dt = 0, 



P(X =£ jc) = P(X < jc) = F(x). 



La distribución acumulativa F[x), es una función lisa no decreciente de los valo- 
res de la variable aleatoria con las siguientes propiedades: 

1. F(-oo) = 0; 

2. F(«) =1; 

3. P(a < X < b) = F(b) - F{a); 

4. dF{x)/dx = /(jc). 



/(*) 


/ - v ; =:^¿. 






\ ' P(.X<x) = FÍ'x) '• 












; 


c 



FIGURA 3.6 La distribución acumulativa, ilustrada como un área bajo la curva de densidad 



3.2 Distribuciones de probabilidad de variables aleatorias continuas 61 

La propiedad de que la derivada de la función de distribución acumulativa es la fun- 
ción de densidad de probabilidad, es una consecuencia del teorema fundamental del 
cálculo integral. 

Ejemplo 3.2 La variable aleatoria X representa el intervalo de tiempo entre dos lle- 
gadas consecutivas a una tienda y su función de densidad de probabilidad está dada 
por: 

f*exp(-jr/2),* jc>0, 



ftx) = , 

[ para cualquier otro valor 

para una constante k apropiada. Determinar el valor de k, la función de distribución 
acumulativa, la probabilidad de que 2 < X < 6, y la probabilidad de que A" «£ 8. 
Debe insistirse en que: 



í 



f(x)dx = I; 



por lo tanto, dado que en este ejemplo ./(jc) = si x «£ 0, entonces el valor de k está 
determinado por: 

* c\p(-x/2)dx = 1. 
Jo 

Después de la integración se tiene que: 

-2¿exp(-jr/2) = 1, 
o 

y k = 1/2. La función de distribución acumulativa es: 
F(x) = \ J(t)dt 

= J Odt + ^J o exp(-//2)rf/ 

= 1 - exp(-jr/2) paraje > 0, 

yF{x) = Opara x =£ 0. Además DF(x)/dx = 1/2 exp(-jr/2), que es lo que se es- 
peraba. 

La probabilidad de que un intervalo entre dos llegadas consecutivas se encuentre 
entre dos y seis minutos es: 

1 f 6 
P(2 < X < 6) = - J ? exp(-.r/2)í/.v = F(6) - F(2) 

= [1 - exp(-3)] - [1 - exp(- 1)] = 0.3181. 

* No se dudará en emplear "exp" en lugar de "e", toda vez que esta notación sea menos oscura. 



62 Variables aleatorias y distribuciones de probabilidad 

La probabilidad de que transcurran menos de ocho minutos entre dos llegadas con- 
secutivas es: 

P(X< 8) = F(8) = 1 - exp(-4) = 0.9817. 
La probabilidad de que ésta exceda los ocho minutos es 1 - F(8) = exp(-4) = 0.0183. 



Ejemplo 3.3 La variable aleatoria que representa la proporción de accidentes 
automovilísticos fatales en Estados Unidos, tiene la siguiente función de densidad: 

Í4241 - *)' < x « 1 

{ para cualquier otro valor 

I 
¿Cuál es la probabilidad de que no más del 25% de los accidentes automovilísticos I 

sean fatales? En otras palabras, ¿cuál es P[X =s 0.25]? | 

f 



La función J{x) es una densidad de probabilidad dado que: 

2 3 4 5 6 



„, f „ o, J* 2 5x 3 10a: 4 10a: 5 5a- 6 a- 7 
42 I x(\ - x) 5 dx = 42 1 — - — + — — + 



= 1. 

o 



Nótese que cuando la variable aleatoria X es 1/4, la función de densidad es 
f{\/4) = 2.4917. De esta forma, en el caso continuo es bastante factible tener, para 
un valor específico de la variable aleatoria X, un valor de la función de densidad 
mayor que uno aun a pesar de que la integral de la función de distribución sobre el 
intervalo completo de valores de la variable aleatoria sea uno. Finalmente, la fun- 
ción de distribución acumulativa es: 



F{x) 



= 42 i t{\ - tfdt = 21a- 2 - 70a- 3 + 105a- 4 - 84a- 5 + 35a: 5 - 6a: 7 . 
Jo 



Por lo tanto, la probabilidad de que la proporción de accidentes automovilísticos fa- 
tales sea menor del 25% es: 

F(l/4) = 21(l/4) 2 - 70(1 /4) 3 + 105(l/4) 4 - 84(1 /4) 5 + 35(1 /4) 6 - 6(1 /4) 7 
= 0.5551. 

3.4 Valor esperado de una variable aleatoria 

El valor esperado (o esperanza) de una variable aleatoria es un concepto muy impor- 
tante en el estudio de las distribuciones de probabilidad. La esperanza de una va- 
riable aleatoria tiene sus orígenes en los juegos de azar, debido a que los apostadores 
deseaban saber cuál era su esperanza de ganar repetidamente un juego. En este senti- 
(*o, el valor esperado representa la cantidad de dinero promedio que el jugador está 
dispuesto a ganar o perder después de un número muy grande de apuestas. Este signi- 



3.4 Valor esperado de una variable aleatoria 63 

ficado también es válido para una variable aleatoria. Es decir, el valor promedio de 
una variable aleatoria después de un número grande de experimentos, es su valor es- 
perado. 

Para ilustrar la esencia de la esperanza, se analizará el siguiente juego de azar. 
Supóngase que se tiene moneda normal y el jugador tiene tres oportunidades para 
que al lanzarla aparezca una "cara". El juego termina en el momento en el que cae 
una "cara" o después de tres intentos, lo que suceda primero. Si en el primero, segundo 
o tercer lanzamiento aparece "cara" el jugador recibe $2, $4, y $8 respectivamente. 
Si no cae "cara" en ninguno de los tres lanzamientos, pierde $20. Para determinar la 
ganancia o pérdida promedio después de un número muy grande de juegos, sea X 
la variable aleatoria que representa la cantidad que se gana o se pierde cada vez que 
se juega. Los posibles valores de X junto con sus respectivas probabilidades se en- 
cuentran en la tabla 3.3. Después de un número grande de juegos se espera ganar 
$2 en cualesquiera de los dos lanzamientos, $4 en cualesquiera de los cuatro lanza- 
mientos, $8 una vez. ca Ja ocho lanzamientos y se espera perder $20 una vez en cada 
ocho intentos. El valor esperado, o la cantidad promedio que se ganaría en cada juego 
después de un número muy grande de éstos, se determina multiplicando cada canti- 
dad que se gana o se pierde por su respectiva probabilidad y sumando los resultados. 
De acuerdo con la anterior, la esperanza de ganar es: 

($2)(l/2) + ($4)(l/4) + ($8)(l/8) + (-$20)(l/8) = $0.50 

por juego. Nótese qué el valor esperado de 50 centavos no es ninguno de los posibles 
valores de la variable aleatoria; de esta forma, es completamente posible que una va- 
riable aleatoria nunca tome el valor de su esperanza. 

El ejemplo anterior sugiere la siguiente definición de la esperanza matemática de 
una variable aleatoria: 

Definición 3.7 El valor esperado de una variable aleatoria X es el promedio o valor 
medio de A" y está dado por: 

E(X) = ¿j xp(x) si x es discreta, o 

x 

E{X) = \ xf(x)dx si X, es continua. 

en donde p(x) y j\x) son las funciones de probabilidad y de densidad de probabili- 
dad, respectivamente. 

TABLA 3.3 Probabilidades de ganar o perder en un juego de azar 

X P(X) 

2 P(X = 2) = P(H) = 1/2 

4 P(X = 4) = P(T fl H) = 1/4 

8 P(X = 8) = P{T n T fl H) = 1/8 

-20 P(X = -20) = P{T n T n T) = 1/8 



64 Variables aleatorias y distribuciones de probabilidad 

En general, el valor esperado de una función g(x) de la variable aleatoria X, está 
dado por: 



E[g(X)] = 2 S(*)PW si x es discreta, o 

£[g(AT)] = I g{x)f(x)dx si A", es continua. 



(3.3) 



La esperanza de una variable aleatoria X no es una función de X sino un número 
fijo y una propiedad de la distribución de probabilidad de X. Por otra parte, el valor 
esperado puede no existir dependiendo de si la correspondiente suma o integral no 
converge en un valor finito. 

Ejemplo 3.4 ^i la variable aleatoria X representa la suma de las caras de dos dados 
cuando éstos se lanzan, demostrar que el valor esperado de A" es siete. 

Con la función de probabilidad de X dada por (3. 1) y la definición 3.7, se tiene: 

12 

E(X) = 2 xp(x) = (2)(l/36) + (3)(2/36) + ••• + (12)(l/36) = 7. 



Ejemplo 3.5 Para el ejemplo 3.3, determinar el valor esperado de la proporción de 

accidentes fatales en Estados Unidos. 

Con la definición 3.7, el valor esperado de la proporción es: 



E(X) = 42 [ xf(x)dx 

= 42 I jc 2 (1 - x?dx 
Jo 



= 42v J r 



= 0.25. 



5jc , 


5jc 3 5jc 4 


A 


— + 2x 2 - 


_ _L - 


- ir 


4 


3 7 


8/ 



Ejemplo 3.6 Supóngase que el tiempo necesario para reparar una pieza de equipo, 
en un proceso de manufactura, es una variable aleatoria cuya función de densidad 
de probabilidad es: 



f(x) = 



1 

-exp(-jr/5) jc>0, 







para cualquier otro valor. 



Si la pérdida de dinero es igual al cuadrado del número de horas necesarias para lle- 
var a cabo la reparación, se debe determinar el valor esperado de las pérdidas por re- 
paración. 



3.4 Valor esperado de una variable aleatoria 65 

En este caso es necesario calcular el valor esperado de una función que se en- 
cuentra relacionada con la variable aleatoria (el tiempo de reparación). Esta función 
es: 

g(x) = jc 2 ; 
por lo tanto: - N 

E[g(X)] = í g(x)f(x)dx =4 f x 2 exp(-x/5)dx. 

J -■* 5 Jo 

Para evaluar integrales de este tipo en donde el integrando es un producto de una po- 
tencia por una exponencial negativa sobre la recta de los reales positivos, es mejor 
emplear la función matemática: 



(ai) = u"~' exp( -«)</«, ai>0, 
Jo 



T(ai) = h"-' exp( -«)</«, ai>0, (3.4) 

Jo 

que se conoce como función gama del argumento n. Algunas propiedades de esta 
func ; ón son: 

1. T(ai + 1) = n\ si ai es un entero positivo; 

2. T(ai + 1) = nF(n), n > 0; 

3. r(i/2) = y/ñ. 

De acuerdo con lo anterior, para evaluar la integral 

E[g(X)] = \ í x 2 exp(-x/5)dx, 
5 Jo 

en (3.4) es u = x/5; en otras palabras, x 5u dx = 5du. Entonces: 

E[g(X)] = l -j o x 2 exp(-x/5)dx = | J o (5«) 2 exp( - u)5du 

= 25 u 2 exp(-u)du 
Jo 

= 25r(3) 

= 50, 

50 es el valor esperado de la pérdida por reparación. 

Ejemplo 3.7 Un inversionista dispone de $100 000.00 para una inversión de un 
año. El inversionista está considerando dos opciones: colocar el dinero en el merca- 
do de valores, lo que le garantiza una ganancia anual fija del 15% y un plan de inver- 
sión cuya ganancia anual puede considerarse como una variable aleatoria cuyos 
valores dependen de las condiciones económicas que prevalezcan. Con base en la. 
historia pasada del segundo plan, un analista muy confiable ha determinado los po- 



66 Variables aleatorias y distribuciones de probabilidad 

sibles valores de la ganancia y calculado sus probabilidades, como se muestra en la 
tabla 3.4. Con base en la ganancia esperada ¿cuál de los dos planes debe seleccionarse? 

Si se escoge el primer plan, colocar el dinero en el mercado de valores, la ganan- 
cia anual que producen $100 mil será de $15 mil, dado que esta es fija y su valor es 
del 15%. Para el segundo plan, sea A* la variable aleatoria que representa la ganan- 
cia. Con la definición 3.7, se tiene: 

E(X) = (0.3X0.2) + (0.25)(0.2) + - + (0.05)(0.05) = 0.205. 

De acuerdo con lo anterior, el segundo plan es una elección mucho mejor puesto que 
ofrece una ganancia esperada de $20 500. Sin embargo, el lector debe ser cauteloso 
en este punto, dado que el valor de $20 500 es únicamente un valor esperado y el in- 
versionista no tiene ninguna garantía de que su ganancia real se encuentre cercana a 
este valor. 

A continuación se enunciarán y demostrarán algunas propiedades importantes 
de la esperanza de una variable aleatoria. Se usará el caso continuo, a pesar de que 
estas propiedades también son válidas para variables aleatorias discretas. Sea Auna 
variable aleatoria continua con una función de densidad de probabilidad ./(*). 

1 . El valor esperado de una constante c es el valor de la constante. 

E(c) = J_^cf(x)dx = cj_J(x)dx = c. 

2. El valor esperado de la cantidad aX + b, en donde a y b son constantes, es el 
producto de a por el valor esperado de x más b. 

E(aX + b) = J_ (ax + b)f(x)dx = a J xf(x)dx + bí f(x)dx 

= aE(X) + b. 

3. El valor esperado de la suma de dos funciones g(X) y h(X) de X es la suma de los 
valores esperados de g{X) y h(X). 

E[g(X) + h(X)] = ¡_JgW + h(x)]f(x)dx 
TABLA 3.4 Valores de la ganancia para el ejemplo 3.7 



Ganancia (%) 


Probabilidad 


30 


0.20 


25 


0.20 


20 


0.30 


15 


0.15 


10 


0.10 


5 


0.05 



3.5 Momentos de una variable aleatoria 67 

= I J(x)f(x)dx + j J{x)f{x)dx 
= E[g(X)] + E[h(X)]. 



3.5 Momentos de una variable aleatoria 

Los momentos de una variable aleatoria X* son los valores esperados de ciertas fun- 
ciones de X. Éstos forman una colección de medidas descriptivas que pueden em- 
plearse para caracterizar la distribución de probabilidad de A' y especificarla si todos 
los momentos de X son conocidos. A pesar de que los momentos de X pueden defi- 
nirse alrededor de cualquier punto de referencia, generalmente se definen alrededor 
del cero o del valor esperado de X. El uso de los momentos de una variable aleatoria 
para caracterizar a la distribución de probabilidad es una tarea muy útil. Lo anterior 
es especialmente cierto en un medio en el que es poco probable que el experimenta- 
dor conozca la distribución de probabilidad. Todas las proposiciones con respecto a 
los momentos se encuentran sujetas a la existencia de las sumas o integrales que las 
definan. 



Definición 3.8 Sea X una variable aleatoria. El r-ésimo momento de X alrededor 
del cero se define por: 

fí' r = E(X r ) = ^ x r p(x) si X es discreta, o 

x 

n' r - E(X r ) = I x r f{x)dx si X es continua. 

El primer momento alrededor del cero es la media o valor esperado de la variable 
aleatoria y se denota por ¿i; de esta manera se tiene que fi\ = ft = E(X). Con 
base en el material del capítulo uno, la media de una variable aleatoria se considera 
como una cantidad numérica alrededor de la cual los valores de la variable aleatoria 
tienden a agruparse. Por lo tanto, la media es una medida de tendencia central. 

Definición 3.9 Sea X una variable aleatoria. El r-ésimo momento central de A' o el 
r-ésimo momento alrededor de la media de X se define por: 

fí r = E(X - fj.) r = ^ (* - n) r p(x) si X es discreta, o 

fjb r = E(X - fjb) r = (x - fi.) r f(x)dx si X es continua. 

* También es apropiado emplear la frase momentos de la distribución de probabilidad de X. 



68 Variables aleatorias y distribuciones de probabilidad 

El momento central cero de cualquier variable aleatoria es uno, dado que: 

Mo = E(X - /t)° = Eü) = 1. 

De manera similar, el primer momento central de cualquier variable aleatoria es 
cero, dado que: 

Ai, = E(X - /x) = E(X) - m = 0. 
El segundo momento central: 

M 2 = E(X - ti) 2 , 

recibe el nombre de varianza de la variable aleatoria. Puesto que: . 

ti 2 = VaiíX) = E(X - /x) 2 

= E(X 2 -2Xfi + /t 2 ) 

= E{X 2 ) - 2/i 2 + /x 2 

= M2 - f¿, (3.5) 

la varianza de cualquier variable aleatoria es el segundo momento alrededor del 
origen menos el cuadrado de la media. Generalmente se denota por a 2 . La varianza 
de una variable aleatoria es una medida de la dispersión de la distribución de proba- 
bilidad de ésta. Por ejemplo, en el caso continuo si la mayor parte del área por deba- 
jo de la curva de distribución se encuentra cercana a la media, la varianza es pe- 
queña; si la mayor parte del área se encuentra muy dispersa alrededor de la media, la 
varianza será grande. La raíz cuadrada positiva de la varianza recibe el nombre de 
desviación estándar y se denota por <r. A pesar de que cr 2 y a son los símbolos más 
universales para la varianza y la desviación estándar, respectivamente; en este libro 
no se dudará en emplear las notaciones a 2 (X) o Vai\X) para la varianza y <r(X) o 
d.e. (X) para la desviación estándar dada su identificación explícita con la variable 
aleatoria involucrada. Por la misma razón, a veces será necesario emplear la nota- 
ción fJ. r (X) para denotar el r-ésimo momento central de X. 

Es útil notar que la varianza de una variable aleatoria X es invariable; es decir, 
Var(X + b) = Var(X) para cualquier constante b. De manera más general, se de- 
mostrará que Var(aX + b) = a 2 Var(X) para cualesquiera dos contantes a y b. Por 
definición, 

Var(aX + b) = E(aX + bf - E\aX + b) 

= E(a 2 X 2 + 2abX + b 2 ) - [aE(X) + bf 

= a 2 E(X 2 ) + 2abE(X) + b 2 - a 2 E\X) - 2abE{X) - b 2 

= a 2 E(X 2 ) - a 2 E 2 (X) 

= a 2 [E(X 2 ) - E\X)] 

= a 2 Var(X). 



3.5 Momentos de una variable aleatoria 69 

Una medida que compara la dispersión relativa de dos distribuciones de probabi- 
lidad es el coeficiente de variación, que está definido por: 

V = <t/ii. (3.6) 

El coeficiente de variación expresa la magnitud de la dispersión de una variable alea- 
toria con respecto a su valor esperado. V es una medida estandarizada de la va- 
riación con respecto a la media, especialmente útil para comparar dos distribuciones 
de probabilidad cuando la escala de medición difiere de manera apreciable entre és- 
tas. Por ejemplo, dadas las variables aleatorias Xy Y, supóngase que: 

E(X) = 120, Var(X) = 36; E(Y) = 40, Var{Y) = 16. 

A pesar de que la dispersión de X, por su desviación estándar, es más grande que la de 
Y, en un sentido absoluto, la dispersión relativa de X es menor que la dispersión re- 
lativa de Y, puesto que: 

V x = 6/120 = 0.05, 
pero: 

V r = 4/40 = 0.10. 

Por lo tanto, la distribución de probabilidad de Y muestra una mayor dispersión 
relativa con respecto a la media que la distribución correspondiente a X. 

En este punto, se examinarán los momentos centrales tercero y cuarto de una va- 
riable aleatoria X. Estos momentos centrales proporcionan información muy útil 
con respecto a la forma de la distribución de probabilidad de X. A pesar de que 
pueden considerarse momentos de orden superior, su utilidad para caracterizar una 
distribución de probabilidad es mucho menor que la de los primeros cuatro momen- 
tos. El tercer momento central 

¿t 3 = E(X - fji)\ (3.7) 

está relacionado con la asimetría de la distribución de probabilidad de X. Ya se de- 
mostró que el segundo momento central (la varianza) puede expresarse en términos 
de los primeros dos momentos alrededor del cero. De hecho, cualquier momento 
central de una variable aleatoria X puede expresarse en términos de los momentos de 
ésta, alrededor del cero. Por definición: 

H, = E(X - M y, 
pero la expansión de (X — ¡í) r puede expresarse como: 



(X-fiY= 2 (-!)''- 



tr-i 



Ya que la esperanza de una suma es igual a la suma de las esperanzas, se tiene que: 



70 Variables aleatorias y distribuciones de probabilidad 



En particular, 






M3 = M3 ~ 3/A/X2 + 2yx 3 



(3.8) 



Para las distribuciones de probabilidad que presentan un solo pico, si /x 3 < 0, se 
dice que la distribución es asimétrica negativamente; si ¿i 3 > 0, la distribución es 
asimétrica positivamente; y si /x 3 = 0, la distribución recibe el nombre de simétrica. 
Sin embargo, a menos que la distribución presente un solo pico, el conocimiento de 
fij, no es suficiente para tener una idea de la forma de la distribución. Aun así, el 
tercer momento central puede dar resultados erróneos, dado que depende de las uni- 
dades en las que se mide la variable aleatoria X. Para estos casos, una medida más 
apropiada de la asimetría, es el tercer momento estandarizado, dado por; 



«3 = M3/(M2) 



3/2 



(3.9) 



que recibe el nombre decoeficiente de asimetría. El coeficiente a 3 es la medida de la 
asimetría de una distribución de probabilidad con respecto a su dispersión. Una dis- 

* En ocasiones, será necesario identificar a la variable aleatoria explícitamente, con el propósito de evitar 
ambigüedades. 




a) 





c) 



FIGURA 3.7 Funciones de densidad de probabilidad típicas de distribuciones: a) asimétrica 
positivamente, b) asimétrica negativamente y c) simétrica. 



3.5 Momentos de una variable aleatoria 71 

tribución de probabilidad es asimétrica positiva, negativa o simétrica si a 3 > 0, a 3 
< 0, o a 3 ■ = respectivamente, como se muestra en la figura 3.7. Nótese que si la 
distribución de probabilidad de una variable aleatoria A" es simétrica, todos los mo- 
mentos centrales de X de orden impar serán cero, dado que cada valor positivo de 
{X - n) r se cancela por un valor negativo de la misma magnitud y de igual proba- 
bilidad. 

El cuarto momento central, 



H< = E{X - ti) 4 

= fi' 4 - 4 fi. fx.'j + 6 /U.V2 ~ 3 (i 4 , 



(3.10) 



es una medida de qué tan puntiaguda es la distribución de probabilidad y recibe el 
nombre de curtosis. Al igual que para el tercer momento, es preferible emplear 
el cuarto momento estandarizado, 



a A = fijfil, 



(3.11) 



como una medida relativa de la curtosis. Si a 4 > 3, la distribución de probabilidad 
presenta un pico relativamente alto y recibe el nombre de leptocúrtica; si a A < 3, la 
distribución es relativamente plana y recibe el nombre de platicúrtica; y si a 4 = 3, 
la distribución no presenta un pico muy alto ni muy bajo y recibe el nombre de me- 
socúrtica. Los tres tipos de distribuciones se encuentran ilustrados en la figura 3.8. 




a) 





b) 



c) 



FIGURA 3.8 Funciones de densidad de probabilidad típicas de distribuciones: a) leptocúrti- 
cas, b) platicúrticas y c) mesocúrticas 



72 Variables aleatorias y distribuciones de probabilidad 

El valor de tres se emplea como una referencia debido a que en la práctica la curtosis 
estandarizada de una distribución de probabilidad se compara con la de una distri- 
bución ampliamente utilizada, conocida como distribución normal, cuyo valor es 
tres. La distribución normal se estudia con gran detalle prosteriormente. 

Los momentos estandarizados tercero y cuarto, también se conocen como los 
factores de forma primero y segundo, respectivamente, de la distribución de proba- 
bilidad debido a que, en gran medida, determinan la forma de la distribución de pro- 
babilidad. 

Ejemplo 3.8 Dos vendedores de seguros de vida, A y B, visitan de ocho a 12 clien- 
tes potenciales por semana, respectivamente. Sean X y Y dos variables aleatorias 
que representan el número de sendos seguros vendidos por A y B, como resultado de 
las visitas. Con base en una gran cantidad de información pasada, las probabilida- 
des para los valores de Xy Y son las siguientes: 



P(x) 



0.02 



0.09 



0.21 



0.28 



0.23 



0.12 



0.04 



0.01 



y 





1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


11 


12 


P(y) 


0.06 


0.21 


0.28 


0.24 


0.13 


0.05 


0.02 


0.01 


















Comparar y contrastar las distribuciones de probabilidad de X y Y empleando sus 
medias, varianzas y factores de forma. 

Con base en la definición 3.8, los primeros cuatro momentos de X alrededor del 
cero son: 

¡jl = (0) (0.2) + (1) (0.09) + ••• + (8)(0) = 3.18 

M2 = (0) 2 (0.02) + (1) 2 (0.09) + ••• + (8) 2 (0) = 12.06 

MÍ = (0) 3 (0.02) + (1) 3 (0.09) + - + (8) 3 (0) = 51.12 

Ht = (0) 4 (0.02) + (1) 4 (0.09) + - + (8) 4 (0) = 235.86. 



Al emplear las expresiones 3.5, 3.8 y 3.10, respectivamente, se determina que Var(X) 
= 1.95, fij(X) = 0.3825 y ti A (X) = 10.565. Los primeros dos factores de forma de 
la distribución de probabilidad de A' se obtienen empleando (3.9) y (3.11), respecti- 
vamente, y son aj (X) = 0.1405 y a 4 (X) = 2.78. 

Con el mismo procedimiento, los primeros cuatro momentos de Y alrededor 
del cero son m = 2.45, fi' 2 = 8.03, fi' 3 = 31.25 y ^ = 138.59. De esta mane- 
ra Var(Y) = 2.03, n¿Y) = 1.6418, fi¿Y) = 13.4504, a,(Y) = 0.5676, y 
a 4 (Y) = 3.26. 

A primera vista, parece existir muy poca diferencia entre las distribuciones de A" 
y y con respecto a la media y la varianza, pero la distribución de y tiene un sesgo positi- 



3.5 Momentos de una variable aleatoria 73 

vo más grande que la de X. Ademas, la distribución de X es platicúrtica (a 4 < 3), 
mientras que la de Y es leptocúrtica (a 4 > 3). 

En este momento se considerará el concepto de variable aleatoria estandarizada. Sea 
X cualquier variable aleatoria con media n y desviación estándar a. La cantidad 

Y=(X-n)/a (3.12) 

define una variable aleatoria Y con media cero y desviación estándar uno. Esta va- 
riable aleatoria recibe el nombre de variable estandarizada correspondiente a X. De 
hecho, para cualquier valor particular x de X el valor y = (x - n)/ a indica la des- 
viación del valor x del valor esperado de X en términos de las unidades de la 
desviación estándar. Por ejemplo, si X representa la calificación de una prueba de 
inteligencia, y si E(X) = 100 y VariX) = 100, entonces Y = (X - 100)/ 10 es la va- 
riable estandarizada correspondiente a X. Además, si una persona posee un coefi- 
ciente intelectual de 120, entonces se encontrará a dos desviaciones estándar del coe- 
ficiente intelectual medio. 

El valor esperado de Y es cero, puesto que: 

E \X—±\ = I E{X _ M) = o 
De hecho, puesto queE(Y) = 0, el r-ésimo momento central de yes: 

( x - fi\ r 



ti r (Y) = E(Y r ) = E 



cr 



= - r E(X- nY 

O" 

= M*)/<x'; 

de esta manera se tiene que: 

¡¡.¿Y) = M ,(*)/W*)r /2 - (3.13) 

De (3.13) es evidente que Var(Y) = n 2 (Y) = 1. En particular, nótese que 
a 3 (y) = a 3 (X) y a 4 (Y) = a 4 (X). La estandarización de una variable aleatoria 
afecta a la media y a la varianza, pero no a los factores de forma. 

Ejemplo 3. 9 Considérense las variables aleatorias A" y Y, cuyas funciones de densi- 
dad de probabilidad son 

f 1/30 80«;.v^ 110, 
flx) = 

I para cualquier otro valor 

[ para cualquier otro valor; 



74 Variables aleatorias y distribuciones de probabilidad 

Determinar y comparar la media, la varianza y los momentos estandarizados tercero 
y cuarto, de X y Y. 

El principal objetivo de este problema es contrastar las distribuciones de proba- 
bilidad de A" y de Y, mediante la comparación de sus cuatro primeros momentos y, 
en alguna medida, proporcionar un análogo teórico de los ejemplos 1.1 y 1 .2. El 
lector puede verificar, de manera fácil, que las distribuciones de probabilidad de A" y 
Kson muy diferentes, graneando las correspondientes funciones de densidad. Como 
se verá, gran parte de la diferencia puede descubrirse a través de las comparaciones 
entre los cuatro primeros momentos de A" y Y. 

Para facilitar los cálculos, sea c, = 1/30 y c 2 =1/10 000. Para la variable aleato- 
ria X: 



rl 10 

E(X) = c, xdx = ^x 2 
Jso 2 



no 
= 95 

80 



TI10 rl5 

Var(X) = c, (jc - 95) 2 dx = c, u 2 du = 75, 

J80 J — 15 

en donde u = x-95ydx = du. Por lo tanto, se tiene que d.e.(X) = 8.66. 
Para los momentos de orden superior: 

rno rl5 

E(X - 95) 3 = c, (jr - 95) 3 dx = c, u 3 du = 

J80 J - 15 



rllO r¡5 

E(X - 95) 4 = c, (x - 95)Vjc = c, u*du = 10 125. 

JSO J - 15 

De acuerdo con (3.9) y (3. 1 1), los factores de forma, primero y segundo, de X son 
a y (X) = 0/(75) 3/2 = y a 4 (X) = 10,125/5,625 = 1.8, respectivamente. La dis- 
tribución de probabilidad de X es simétrica y está centrada alrededor del valor 95, 
tiene una varianza de 75 y una desviación estándar de 8.66, y tiende a ser plana en su 
parte superior. 

Para la variable aleatoria Y: 



E(Y) 



= c 2 y exp( - c 2 y)dy = c 2 \ — u exp( - u) - du = Y(2)/c, = 10 000 

JO J0 f; C 2 

y 

E(Y 2 ) = c : J o y 2 exp(-c 2 y)dy = V(3)/c 2 2 = 2 x 10 8 , 

en donde u = c 2 y y dy = du/c 2 . De esta manera se tiene que Var( Y) = 1 x 10 8 , y 
d.e.(X) = 10 000. Además: 

E(Y } ) = c, J >- 3 exp(-c- 2 y)(/y = Y(4)fc\ = 6 x 10 12 . 



3.6 Oirás medidas de tendencia central y dispersión 75 

Con (3.8) y (3.9) se determina que E{Y - 10 000) 3 = 2 x 10 12 , y d.e.(Y) = 
10 000. De manera similar: 

£(K 4 ) = c 2 J o / exp(-c 2 y)rfy = T(5)/c\ = 24 x 10' 6 . 

Con (3. 10) y (3. 11), respectivamente, se obtiene que E(Y - 10 000) 4 = 9 x 10 16 , 
y a 4 (Y) = 9. Puede concluirse que la distribución de Y está sesgada positivamente, 
tiene un pico relativamente alto, una media de 10 000, una varianza de 1 x 10 8 , y 
una desviación estándar de 10 000. 



3.6 Otras medidas de tendencia central y dispersión 

A pesar de que la media y la varianza son las principales medidas de tendencia 
central y dispersión, existen otras medidas empleadas comúnmente. Se debe recor- 
dar que en el capítulo uno, la mediana y la moda eran otras medidas útiles de ten- 
dencia central. 

Definición 3.10 Para cualquier variable aleatoria X, se define a la mediana jc 5 de 
X, para ser: 

P(X < jc 05 ) «1/2 y P(X « jco.j) > 1/2 si A' es discreta, o 
P(X =s x 05 ) = 1/2 si A' es continua. 

Si existe uno de estos valores para X, entonces x 05 recibe el nombre de mediana de 
la distribución de X. La mediana es una medida de tendencia central, en el sentido 
de que es el valor para el cual la distribución de probabilidad se divide en dos partes 
iguales. 

Definición 3.11 Para cualquier variable aleatoria X, se define la moda como el 
valor x m de X que maximiza la función de probabilidad, si X es discreta, o la fun- 
ción de densidad si X es continua. 

Si existe uno de estos valores para X, entonces x m recibe el nombre de moda de 
la distribución de X. Si X es continua la moda es la solución de df(x)/dx = si 
d 2 f{x)/dx 2 < 0. Si la segunda derivada es positiva, el valor recibe el nombre de anti- 
moda; éste se encuentra en las distribuciones que tienen forma de U. Si existen 
varios máximos o mínimos, las distribuciones de probabilidad reciben el nombre de 
multimodales. 

De acuerdo con la exposición empírica del capítulo uno, la media de una variable 
aleatoria es generalmente la medida preferida de tendencia central. Sin embargo, en 
algunas situaciones la mediana, y en menor grado la moda, pueden ser medidas de 
tendencia central mucho más apropiadas. Por ejemplo, en distribuciones unimoda- 
les cuya asimetría es grande, el valor esperado de la variable aleatoria puede verse 
afectado por los valores extremos de la distribución, mientras que la mediana no lo 



76 Variables aleatorias y distribuciones de probabilidad 

estará. Para distribuciones unimodales con asimetría negativa, la mediana es mas 
grande que la media, mientras que lo opuesto es cierto para distribuciones unimoda- 
les con asimetría positiva. Para distribuciones unimodales simétricas, la media, me- 
diana y moda coinciden en valor. 

Ejemplo 3. 10 Sea X una variable alaeatoría que representa el tiempo de duración, 
en horas, de un cierto componente eléctrico. Si la función de densidad de probabili- 
dad de X está dada por 



ñx) = 



— exp(-*/1000) *>0, 

para cualquier otro valor, 



determinar y comparar la media y la mediana. 
La media de A" es: 

£ (*) = 77^ jrexp(-jr/1000)dr = 1000 ucxp(-u)du 
1000 Jo Jo 

= 1000r(2) = 1000 horas, 
en donde x = 1 000« y dx = 1 OOOtfw. La mediana de X es: 

P(X *£ xo. s ) = F(x 05 ) = JL | o °' exp( - jc/1000)dr = 0.5 

= 1 - exp(-xo. 5 /1000) = 0.5. 

Por lo tanto, 

jc .s = - 1000ln(0.5) = 693.15 horas. 

Se puede demostrar que esta función de probabilidad es asimétrica positivamen- 
te, puesto que su coeficiente de asimetría es a 3 = 2. De esta forma, la duración 
media de 1 000 horas se encuentra afectada por los valores de la variable aleatoria en 
los extremos de la distribución. De hecho la probabilidad de que un componente tra- 
baje más que el valor promedio, es de 0.3679 puesto que 

P(X>n)= l - F(n) = 1 - 0.6321 = 0.3679. 

En este caso, el valor de la mediana para el tiempo de duración, 693.15 hr, resulta 
ser una medida más apropiada de tendencia central. 

Además de la varianza, existen otras medidas de dispersión para variables aleato- 
rias como el recorrido interdecil, el recorrido intercuartil y la desviación media, 
como se mencionó en el capítulo uno. Los primeros dos son funciones de los cuanti- 
les de la distribución de probabilidad. La desviación media es el paralelo conceptual 
de la desviación estándar, con excepción de que se emplea el valor absoluto de la di- 
ferencia entre el valor de la variable aleatoria y su valor esperado en lugar del 
cuadrado de ésta. 



3.6 Otras medidas de tendencia central y dispersión 77 

Definición 3.12 Para cualquier variable aleatoria X, el valor cuantil x q de orden q, 
< q < 1 , es el valor de X tal que: 

P(X <x q ) *¡q y P(X =£ or,) 3= q si A" es discreta, o 

P(X ^ Jt„) = q si A" es continua. 

Generalmente los valores cuantiles de una variable aleatoria continua son relati- 
vamente fáciles de determinar. Sin embargo, para variables aleatorias discretas los 
valores cuantiles generalmente se obtienen por interpolación, dado que no siempre 
es posible obtener una solución exacta. 

Los cuantiles utilizados comúnmente son los percentiles, deciles y cuartiles. Los 
percentiles son los puntos que dividen a la distribución de probabilidad en 100 inter- 
valos, cada uno con probabilidad 0.01 ; los deciles y cuartiles son los puntos que dividen 
a la distribución de probabilidad en 10 y cuatro intervalos, cada uno con probabili- 
dad de 0.1 y 0.25, respectivamente. Nótese que la mediana es también el cincuentavo 
porcentil, el quinto decil y el segundo cuartil. 

El recorrido interdecil es la diferencia entre el noveno y primer decil, y el recorri- 
do intercuartil es la diferencia entre el tercer y primer cuartil. De esta manera el 
recorrido interdecil es una medida de la dispersión de la mitad del 80% de la distri- 
bución de probabilidad, en tanto que el recorrido intercuantil refléjala variación de 
la mitad del 50% de la distribución. En ambos casos, al excluir los efectos de los va- 
lores extremos de la distribución, se tiene la capacidad de medir la variabilidad de 
una variable aleatoria alrededor de la mitad de su distribución de probabilidad. 

Los recorridos interdecil e intercuartil, son dos medidas de dispersión que se 
emplean en disciplinas como educación, economía, finanzas e ingeniería. El recorri- 
do interdecil se emplea muchas veces en pruebas educacionales para medir la varia- 
bilidad en el desempeño sin importar los valores por arriba o por debajo de un 10% 
de un valor predeterminado. El recorrido intercuartil se emplea en muchas oca- 
siones, en economía y finanzas, para medir la variabilidad de una variable aleatoria 
alrededor de una porción de su distribución de probabilidad. 

Definición 3.13 La desviación media de una variable aleatoria X es el valor espera- 
do de la diferencia absoluta entre X y su media, y está dado por: 

E\X - ju| = 2 |.v - ju|p(.v) si A" es discreta, o 

toda v 

E\X - ju| = \x - fi\f(x)dx si A" es continua, 

A pesar de que la desviación media es una medida legítima de dispersión, existen dis- 
tribuciones de probabilidad para las que dar un tratamiento analítico es o muy difícil 
o imposible. A pesar de todo y como se ilustró en el capítulo uno, la desviación me- 
dia es una alternativa viable a la desviación estándar como medida de dispersión 
para conjuntos de datos cuyo fundamento se encuentra en evidencia empírica. Debe 
notarse que para distribuciones con valores grandes en sus extremos, el valor de la 



78 Variables aleatorias y distribuciones de probabilidad 



Ejemplo 3.11 Supóngase que en cierto proceso de llenado, la desviación entre el 
peso verdadero de un recipiente con respecto al valor específico, es una variable 
aleatoria Z, cuya función de densidad de probabilidad está dada por 

f(z) = -J= exp( - ¿-/I) - * < z < *. 
yin 



Determinar la media, la desviación estándar, el recorrido interdecil, el recorrido in- 
tercuartil y la desviación media de Z. 

Como se verá en el capítulo cinco, esta función de densidad es un miembro espe- 
cial de una familia muy útil en las distribuciones que reciben el nombre de familia 
normal o Gausiana. De hecho, la función de distribución acumulativa de Z se en- 
cuentra bien tabulada, como puede observarse en la tabla D del apéndice. Además, 
como se verá posteriormente: 

E(Z) = 0, Var(Z) = 1, y d.e.(Z) = 1. 

Para determinar el recorrido interdecil, los valores cuantiles z 0A y z 09 se en- 
cuentran definidos por: 



1 



"' exp(-/ 2 /2)í/í = 0.1 y — L= "\xp(-t 2 /2)dt = 0.9 

J -■* \/2tt J- x 



y se obtienen de la tabla D*; sus valores son z ., = -1.28 y z 09 = 1.28. El recorri- 
do interdecil es Zo 9 - z 1 = 2.56 En otras palabras, el 80% de todos los reci- 
pientes presentarán una desviación no mayor de 1.28 unidades, en cualquier direc- 
ción del peso especificado. De manera similar, a partir de la tabla D los valores 
cuantiles z .25 y Z0.75 son -0.675 y 0.675 respectivamente. Por lo tanto, el recorrido 
intercuartil es Zo.25 = -0.675 lo.is - Zo.is = 1-35 unidades. 
Puesto que para la desviación mediana E(Z) = 0, se tiene: 



E\Z\ = ^jjz\exp(-z 2 /2)dz 



277 

J o zexp(-z 2 /2)d z 



277 

2 



V5 -«p<-«'/2> 

= 2/V2Í 

= 0.7979 unidades. 

* El uso de la tabla D se explica con mucho detalle en el capítulo cinco. 



I 



desviación media se ve menos afectado que la desviación estándar por la existencia f 

de valores extremos. 



3.6 Otras medidas de tendencia central y dispersión 79 

Nótese que dado que la desviación estándar es uno, el recorrido interdecil es de apro- 
ximadamente 2.56 unidades de la desviación estándar, el recorrido intercuartil es de 
1 .35 unidades de la desviación estándar y la desviación media tiene un valor de apro- 
ximadamente 0.7979 unidades de la desviación estándar. Los resultados anteriores 
son siempre válidos para la familia de distribuciones normales. 

El siguiente ejemplo ilustra una situación teórica, en la que se tiene una distribu- 
ción con algunos valores muy grandes y para la cuál la mediana, el recorrido interde- 
cil y el recorrido intercuartil son medidas de tendencia central y dispersión más apro- 
piadas que la media y la varianza. 

Ejemplo 3.12 Sea X una variable aleatoria cuya función de densidad de probabili- 
dad está dada por: 



/to = 



lx~ U2 exp(-x ,/2 /4) x>0 

o 

para cualquier otro valor. 



Determinar la media, la varianza, la desviación estándar, la mediana, el recorrido 
intercuartil y el recorrido interdecil de X. 

Se deja como ejercicio la gráfica de esta función de densidad de probabilidad y 
verificar que su integral sea igual a uno. El lector no tendrá ningún problema para 
notar que esta función de densidad exhibe un rápido decaimiento hacia el eje hori- 
zontal; teniendo en cuenta esta propiedad, la distribución anterior puede ser apro- 
piada para representar la edad a la que fallece una persona como resultado de las 
enfermedades padecidas en su niñez, como la escarlatina y la difteria (hace una gene- 
ración) y, en mayor frecuencia, la leucemia (en la actualidad). 

El valor esperado de X es: 

E(X) = -J o x ,/2 exp(-x ,/2 /4)dx = -J o 4w exp( - u)32udu = 16r(3) = 32, 

en donde u = x i/2 /4, x = I6u 2 , y dx = 32udu. De manera similar: 

E(X 2 ) = - x 3/2 exp(-x' /2 /4)dx = 256 í u 4 exp(-u)du = 2561^(5) = 6 144. 
o Jo jo 



de manera tal que Var (X) = 5 120 y d.e.(X) = 71.55. 

Para determinar los valores cuantiles, primero se obtendrá la función de distri- 
bución acumulativa: 

i p p"74 

F{x) = - t- U2 exp(-t U4 /4)dt = exp(-u)du = 1 - exp(-x ,/2 /4), 

o JO JO 

en donde u = t 1/2 /4 y dt = 32udu. Por definición, la mediana es el valor jr 05 tal 
que F(x 05 ) = 0.5. Por lo tanto: 



80 Variables aleatorias y distribuciones de probabilidad 

1 -exp(-x¿ / |/4) = 0.5 
exp(-Jt¿í?/4) = 0.5 
(-*¿5/4).= ln(0.5) 

y 

•x . 5 = [-4 In(0.5)] 2 = 7.6872. 

En otras palabras, el 50% de los valores de X serán menores de 7.6872, a pesar de 
que la media tiene un valor de 32, lo que constituye una diferencia muy grande entre 
los valores de la media y la mediana. Para demostrar cuan inapropiada es la media 
de acornó única medida de tendencia central, considérese la probabilidad de que^T 
sea menor que su valor medio: 

P(X< 32) = F02) = 1 - exp(-32 ,/2 /4) = 0.7569. 

De acuerdo con lo anterior, el valor de 32 para la media difícilmente puede interpre- 
tarse como una medida representativa de tendencia central si la probabilidad de que 
la variable aleatoria exceda el valor de su media es menor de 0.25. 

Los percentiles décimo, 25avo, 75avo y 90avo se determinan encontrando el va- 
lor de x q de las ecuaciones F{x q ) = 0.1, 0.25, 0.75, y 0.90, respectivamente. Por 
lo tanto: 

1 - exp(-x¿ /2 /4) = 0.1 

exp(-xtf/4) = 0.9 

*„., = [-4ln(0.9)] 2 , 

y%, = 0.1776. De manera similar, jr . 25 = [-4 ln(0.75)] 2 = 1.3242, -v 075 = [-4 
ln(0.25)] 2 = 30.7490, yx . 9 = [-4 ln(0.1)] 2 = 84.8304. El recorrido intercuar- 
til de X es x 0J5 - x 025 = 30.7490 - 1.3242 = 29.4248, el recorrido interdecil 
es.ío.9 - *o.i = 84.8304 - 0.1776= 84.6528. Nótese que la desviación estándar de 
Xes, aproximadamente 2.5 veces el recorrido intercuartil y casi tan grande como el re- 
corrido interdecil. Este resultado, junto con los hechos de que el 25% de los valores 
son menores de 1.3242, el 50% es menor de 7.6872 y el 75% menores de 30.49, de- 
muestran que la varianza, y por lo tanto la desviación estándar, son inadecuadas como 
únicas medidas de variabilidad. 



3.7 Funciones generadoras de momentos 

Hasta este momento se han presentado distintas formas para determinar los momen- 
tos de una variable aleatoria dada su distribución de probabilidad. Como método al- 
ternativo se presenta la esperanza de cierta función conocida como función genera- 
dora de momentos. 

Definición 3.14 Sea X una variable aleatoria. El valor esperado de exp(tX) recibe 
el nombre de función generadora de momentos, y se denota por tn x {t). si el valor es- 



3. 7 Funciones generadoras de momentos 81 

perado existe para cualquier valor de / en algún intervalo - c < t < c en donde c 
es un número positivo. En otras palabras: 

m x (t) = E[exp(tX)] = £ exp(/jc)p(.x) si X es discreta, o 

X 

m*(/) = £[exp(/*)] = J exp(/jc)/(jc)¿r si X es continua. 

Nótese que m x (t) nada más es función del argumento /. Si / = 0, entonces m¡r(0) 
= E{e°) = 1. Si la función generadora de momentos existe, puede demostrarse que 
es única y que determina por completo la distribución de probabilidad de X. En otras 
palabras, si dos variables aleatorias tienen la misma función generadora de momen- 
tos, entonces tienen la misma distribución de probabilidad. Este resultado se utilizará, 
de manera extensa, en el capitulo siete. 

Si la función generadora de momentos existe para -c < t < c, entonces existen 
las derivadas de ésta de todas las órdenes para / = . Lo anterior asegura que m x (t) 
generará todos los momentos de X alrededor del origen. Para demostrar lo anterior, 
se diferencia m x (t) con respecto a /, y se evalúa la derivada en / = 0. Suponiendo 
que pueden intercambiarse los símbolos de diferenciación y esperanza, se tiene: 



dm x U) 
dt 



-£[exp(f*)] 



= £<-[exp(dr)] 



= E [Xexp(tX)} |, = o 
= £(*) = fi. 
Al tomar la segunda derivada y evaluar en / = 0. 



d 2 m x U) 
dr 



dt 



- 2 E [exp(tX)] 



= E\j¡f [exp(/JD] 



E<jl* expí/JQ] 

= ElX 2 exp(tX)]\ l=0 
= E(X 2 ) = p' 2 . 

Al continuar este proceso de diferenciación se puede deducir que se obtiene el 



82 Variables aleatorias y distribuciones de probabilidad 



d'm x {t) 
dt r 



= ^pE[cxp(tX)] 

= eI^IcxpUX)]] 

= E[X r exp(tX)]\ l=0 
= E(X') = (t' r . 

mismo resultado si se reemplaza la función exponencial por su expansión en serie de 
potencias 

(t 2 X 2 t'X r 

l + tX + — +■■■ + — + 

y se torran las derivadas con respecto a t, evaluando cada una de éstas en t = 0. 
La noción de una función generadora de momentos puede extenderse a otros 
puntos de referencia, además del origen. En particular, se define una función central 
generadora de momentos la que, si existe, generará todos los momentos centrales de 
una distribución de probabilidad. 

Definición 3.15 Sea X una variable aleatoria. El valor esperado de exp[t(X - jx)] 
recibe el nombre de función generadora de momentos central y denota por/w^^ (t), 
si el valor esperado existe para cualquier t en algún intervalo - c < t < c en donde 
c es un número positivo. 

ntx-^t) = £{exp[/(* - ¿i)]} = 2 exp[/(x - fx)]p{x) si X es discreta, o 

x 

m x -¿t) = £{exp[/(A' - ¡x)]} = I exp[/(jc - ix)\f(x)dx si descontinua. 

La comprobación de que mx-nít) genera todos los momentos centrales se deja 
como ejercicio al lector. 

Ejemplo 3.13 Sea X una variable aleatoria con función de densidad de probabilidad 



fi-r) = 



-exp(-jr/0) ¿>0, 

O para cualquier otro valor. 



en donde d es un número mayor que cero. Determinar la función generadora de mo- 
mentos de X. 



3. 7 Funciones generadoras de momentos 83 



Por definición 



m x (t) = -\ exp(tx)exp(-x/d)dx 

u JO 

6 Jo 



exp 



6 



■nr-' 



dx 



e(i - et) 
= (i -ety'. 



exp 



-,,- - , 



Por lo tanto: 



dm x (t) 
dt 



d 2 m x (t) 
dt 2 



= so - ety 2 



= = E(X), 



= 20 2 (1 - ety 



= le 2 = E(X 2 ). 

dando como resultado, Var(X) = 2d 2 - 2 = O 2 , y así sucesivamente. 
Ejemplo 3.14 Sea X una variable aleatoria discreta con función de probabilidad: 

expí-XJX* 



Pix) = 



x\ 



x = 0, 1,2,... , 



en donde X es un número mayor que cero. Determinar la función generadora de mo- 
mentos de X. 

De acuerdo con la definición se tiene: 

exp(/.r)exp(-X) X' 



m x U) = 2 



xl 



= exp(-X) 2 



[X expíOI* 



Dado que: 



Í ^^ = 1 + A,' + 



xV' 

2! 



+ •■• + 



= exp[X exp(/)]. 



84 Variables aleatorias y distribuciones de probabilidad 
entonces: 



m x {t) = exp(-A)exp[Aexp(r)]. 



Por lo tanto: 



dm x (í) 
di 



= Aexp(-A)exp(/)exp 

/ = 

= A = E(X). 



A exp(/) 



í=0 



Referencias 

1. J. G. Freund, Mathematical statistics, 2nd ed., Prentice-Hall, Englewood Cliffs, N.J., 
1971. 

2. P. G. Hoel, Introditcticn to mathematical statistics, 4th ed., Wiley, New York, 1971. 

3. W. Mendenhall and R. L. Schaeffer, Mathematical statistics with applications, Duxbury, 
North Scituate, Mass., 1973. 



Ejercicios 

3.1 . Sea X una variable aleatoria que representa el número de llamadas telefónicas que reci- 
be un conmutador en un intervalo de cinco minutos y cuya función de probabilidad está 
dada por p(x) = e^ (3)7*!, x = 0, 1, 2, ... . 

a) Determinar las probabilidades de que X sea igual a 0, 1, 2, 3, 4, 5, 6 y 7. 

b) Granear la función de probabilidad para estos valores de X. 

c) Determinar la función de distribución acumulativa para estos valores de X. 

d) Graficar la función de distribución acumulativa. 

3.2. Sea X una variable aleatoria discreta. Determinar el valor de k para que la función p(x) = 
k/x,x = 1, 2, 3, 4, sea la función de probabilidad de X. Determinar P(l =s X 
«3). 

3.3. Sea X una variable aleatoria continua. 

a) Determinar el valor de k, de manera tal que la función 

kx 1 -Ux«l, 



ftx) 

para cualquier otro valor 

sea la función de densidad de probabilidad de X. 

b) Determinar la función de distribución acumulativa de A 1 y graficar F[x). 

c) Calcular P(X s 1/2) y P(- 1/2 =s X « 1/2). 

3.4. Sea X una variable aleatoria continua. 

a) Determinar el valor de k para que la función 

Aexp(-.r/5) x > 0. 



Ax) 

para cualquier otro valor 

sea la función de densidad de nrobabilidad í)p * 



Ejercicios 85 

b) GraficarA*). 

c) Calcular P(X =£ 5) y P(0 =s X =£ 8). 

d) Determinar F\x) y granearla. 

3.5. La duración en horas de un componente electrónico, es una variable aleatoria cuya fun- 
ción de distribución acumulativa es F(x) = 1 - exp(-jr/100), x > 0. 

a) Determinar la función de probabilidad de X, 

b) Determinar la probabilidad de que el componente trabaje más de 200 horas. 

3.6. La función de distribución acumulativa de una variable aleatoria está dada por 

x < 0, 

F(x) = • 2x - x 1 0<.r<l, 
\ x>\. 

a) Grafícar F\x). 

b) Obtener P(X < 1/2) y P(X > 3/4). 

c) Determinar J{x). 

3.7. Sea X una variable aleatoria que representa el número de clientes que llega a una tienda 
en un periodo de una hora. Dada la siguiente información 



X 


12 3 4 5 


6 7 8 


p(x) 


0.05 0.10 0.10 0.10 0.20 0.25 


0.10 0.05 0.05 



encontrar E(X) y Var(X). 

3.8. Una compañía de seguros debe determinar la cuota anual a cobrarse por un seguro de 
$50 mil para hombres cuya edad se encuentra entre los 30 y 35 años. Con base en las 
tablas actuariales el número de fallecimientos al año, para este grupo, es de 5 por cada 
mil. Si X es la variable aleatoria que representa la ganancia de la compañía de seguros, 
determinar el monto de la cuota anual para que la compañía no pierda, a pesar de tener 
un número grande de tales seguros. 

3.9. La función de densidad de probabilidad de una variable aleatoria X está dada por: 

2(1 - x) 0<x< 1, 



"{. 



para cualquier otro valor 

Determinar: 
a) E(X) b) Var{X) 

3.10. Sea A" una variable aleatoria que representa la magnitud de la desviación, a partir de un 
valor prescrito, del peso neto de ciertos recipientes, los que se llenan mediante una má- 
quina. La función de densidad de probabilidad de X está dada por: 



f(x) = 
Determinar: 



1/10 0<x< 10 

para cualquier otro valor 



a) E(X) c) a¿X) 

b) VariX) d) a 4 (X) 



86 Variables aleatorias y distribuciones de probabilidad 

3.11. Supóngase que la duración en minutos de una llamada de negocios, es una variable alea- 
toria cuya función de densidad de probabilidad está determinada 

í-exp<-Jc/4) x>0, 
fM = \ 4 

I para cualquier otro valor 

Determinar: 

a) E{X) 

b) Var(X) 
O a,(X) 

d) a¿X) 

e) Refiérase al ejercicio 3.10. Basándose en sus respuestas a las preguntas a, a d del 
problema 3.11, compare las dos distribuciones de probabilidades. ¿Cuál muestra la 
mayor dispersión relativa? 

3.12. La calificación promedio en una prueba de estadística fue de 62.5 con una desviación es- 
tándar de 10. El profesor sospecha que Ji examen fue difícil. De acuerdo con lo ante- 
rior, desea a'ustar las calificaciones de manera que el promedio sea de 70 y la desviación 
estándar de 8. ¿Qué ajuste del tipo aX + b, debe utilizar? 

3.13. Sea X una variable aleatoria con media n y yarianza cr. 

a) Evaluar E(X - c) 2 en términos de fí y cr 2 en donde c es una constante. 

b) ¿Para qué valor de c es E(X - c) 2 mínimo? 

3.14. Con respecto al ejercicio 3.11, demostrar que la variable aleatoria Y = (X - 4)/4 
tiene media cero y desviación estándar uno. Demostrar que los factores de forma, pri- 
mero y segundo, de la distribución de Y son los mismos de la distribución de X. 

3.15. Considéresela función de densidad de probabilidad de A" dada en el ejercicio 3.9. Deter- 
minar la desviación media de A" y compararla con su desviación estándar. 

3.16. Considérese la función de densidad de probabilidad de X dada en el ejercicio 3.10. De- 
terminar la desviación media de X y compararla con su desviación estándar. 

3.17. Supóngase que el ingreso semanal de un asesor profesional es una variable aleatoria 
cuya función de densidad de probabilidad está determinada por: 

í¿exp(-jr/800) x > 0, 
fix) = j «O» 

lo para cualquier otro valor 

a) Determinar los ingresos medios y medianos. 

b) Determinar el recorrido intercuartil. 

c) Determinar el recorrido interdecil. 

d) Determinar la probabilidad de que el ingreso semanal exceda al ingreso promedio. 

3.18. Comprobar que la función generadora de momentos central de una variable aleatoria 
X, genera todos los momentos centrales de X. 

3.19. La función de densidad de probabilidad de una variable aleatoria X está determinada: 

f— ,vexp(-.v/4) .v>0, 
,/t.v) = j l6 

LO para cualquier otro valor 



I 



Ejercicios 87 

a) Determinar la función generadora de momentos de X. 

b) Utilizar la función generadora de momentos para encontrar la media y la varíanza de X. 



3.20. Considérese la función de densidad de probabilidad dada en el ejercicio 3.11. Encontrar 
la función generadora de momentos y utilizarla para comprobar los valores de la media 
y la varianza, determinados en el ejercicio 3.11. 

3.21. Sea X una variable aleatoria discreta con función de probabilidad p(x) x = 0,1,2,...,/;, 
y sean a, b, y c constantes. Demostrar que E(c) = c, E(aX + b) = aE(X) + b,y 
E[g(X) + h(X)\ = E[g(X)\ + E\h(X)\, en donde g(x) y h(x) son funciones deX. ' 

3.22. Para la variable aleatoria discreta del ejercicio anterior, utilizar las definiciones 3.8 y 3.9 
para demostrar que Var(X) = E(X : ) - E\X). 



CAPITULO CUATRO 



Algunas distribuciones 
discretas de probabilidad 



4.1 Introducción 

En el capítulo dos se establecieron algunos principios básicos de probabilidad. En el 
capítulo tres estos principios se aplicaron para definir variables aleatorias y distri- 
buciones de probabilidad asi como para desarrollar sus propiedades generales. En 
los capítulos cuatro y cinco se examinarán con detalle algunas distribuciones especí- 
ficas de probabilidad que han demostrado, empíricamente, ser modelos útiles para 
diversos problemas prácticos. A pesar de ello tales distribuciones presentan un ca- 
rácter teórico en el sentido en que sus funciones de probabilidad o de densidad de 
probabilidad se deducen matemáticamente con base en ciertas hipótesis que se supo- 
nen válidas para los fenómenos aleatorios. La elección de una distribución de proba- 
bilidad para representar un fenómeno de interés práctico debe estar motivada tanto 
por la comprensión de la naturaleza del fenómeno en sí, como por la posible verifi- 
cación de la distribución seleccionada a través de la evidencia empírica. En todo mo- 
mento debe evitarse aceptar de manera tácita una determinada distribución de pro- 
babilidad como modelo de un problema práctico. 

Se examinarán varias distribuciones tanto discretas como continuas. En cada 
caso se expondrán detalladamente las características distintivas de las distribuciones 
particulares de probabilidad y se deducirán o se establecerán sus medias, varianzas, 
factores de forma, y otras medidas descriptivas numéricas. Como se sugirió en el 
capítulo uno, una distribución de probabilidad está caracterizada, de manera gene- 
ral, por una o más cantidades que reciben el nombre de parámetros de la distribu- 
ción. Un parámetro puede tomar cualquier valor de un conjunto dado y, en ese sen- 
tido, define una familia de distribuciones de probabilidad, que tendrán la misma 
función genérica de probabilidad o función de densidad de probabilidad. Se tratarán 
varios tipos de parámetros tales como el conteo, la proporción, la rapidez, la locali- 
zación y la forma. Se adoptarán las letras n y k para referirse a los parámetros de 
conteo, p para la proporción \ para la rapidez, fi para la localización, a y d para 
la escala, y a y ¡3 para la forma. Cuando la presentación sea de una naturaleza muy 



4.2 La distribución binomial 89 

general y no se esté tratando ningún tipo de parámetro en particular, se empleará 6 
para designar ese parámetro. 

Los parámetros de conteo y de proporción son autoexplicatoríos. Un parámetro 
de rapidez representa la rapidez en que ocurre un evento aleatorio en el tiempo o en 
el espacio. Un parámetro de localización relaciona la función (densidad) de probabi- 
lidad con el origen de la escala de medición, localizándola sobre el eje de las x sin te- 
ner algún efecto sobre su apariencia. La presencia de un parámetro de localización (i 
en la función de probabilidad es siempre de la forma (x - fi). Un parámetro de es- 
cala es una cantidad que relaciona las unidades físicas de la variable aleatoria y de 
esta forma la escala. Un parámetro de escala influye sobre la dispersión de una va- 
riable aleatoria, y de esta forma afecta la apariencia de la función de probabilidad. 
La aparición de un parámetro de escala en la función de probabilidad es de la forma 
x/9. Un parámetro de forma afecta la forma de la función de probabilidad en di- 
verso grado, dependiendo del modelo en particular. A pesar de que en muchas oca- 
siones el parámetro de forma se encuentra en un exponente en la función de probabi- 
lidad, no existe ninguna forma estándar en la que pueda asociarse a x sin importar su 
aparición en la función de probabilidad. 

Se examinarán con detalle cuatro familias de distribuciones de probabilidad 
discreta y se harán comentarios sobre su aplicación. Estas son las distribuciones bi- 
nomial, Poisson, hipergeométrica y la binomial negativa. 



4.2 La distribución binomial 

Es una de las distribuciones discretas de probabilidad más útiles. Sus áreas de aplica- 
ción incluyen inspección de calidad, ventas, mercadotecnia, medicina, investigación 
de opiniones y otras. Se puede imaginar un experimento en el que el resultado es la 
ocurrencia o la no ocurrencia de un evento. Sin pérdida de generalidad, llámese 
"éxito" a la ocurrencia del evento y "fracaso" a su no ocurrencia. Además, sea/; la 
probabilidad de éxito cada vez que el experimento se lleva a cabo y 1 -p la probabili- 
dad de fracaso. Supóngase que el experimento se realiza n veces, y cada uno de éstos 
es independiente de todos los demás, y sea A' la variable aleatoria que representa el 
número de éxitos en los n ensayos. El interés está en determinar la probabilidad de 
obtener exactamente X = x éxitos durante los n ensayos. Las dos suposiciones cla- 
ves para la distribución binomial son: 

1 . La probabilidad de éxito p permanece constante para cada ensayo. 

2. Los n ensayos son independientes entre sí. 

Varios problemas prácticos parecen adherirse razonablemente a las suposiciones 
anteriores. Por ejemplo, un proceso de manufactura produce un determinado produc- 
to en el que algunas unidades se encuentran defectuosas. Si la proporción de unidades 
defectuosas producidas por este proceso es constante durante un periodo razonable y, 
si como procedimiento de rutina, se seleccionan aleatoriamente un determinado núme- 
ro de unidades, entonces las proposiciones de probabilidad con respecto al número de 
artículos defectuosos puede hacerse mediante el empleo de la distribución binomial. 
La publicidad para la venta de un producto también puede considerarse otro ejemplo. 



90 Algunas distribuciones discretas de probabilidad 

Si se supone que la probabilidad de venta es constante para todas las personas, la 
distribución binomial será el modelo de probabilidad adecuado puesto que las perso- 
nas tienen un criterio independiente para comprar. Como ejemplo final, el Centro 
para el Control de Enfermedades tiene, entre sus distintas funciones, la responsabili- 
dad de vigilar las enfermedades transmisibles. Para cumplir con ella, debe examinar la 
propagación de una enfermedad determinada con base en la probabilidad. Es dudoso 
que la probabilidad de contraer una enfermedad transmisible, sea constante para toda 
la población. Sin embargo, para una parte de ésta, por ejemplo las personas que 
tienen una edad determinada, si puede ser constante, de manera tal que la distribución 
binomial puede ser un modelo de probabilidad adecuado. 

Para obtener la función de probabilidad de la distribución binomial, primero se 
determina la probabilidad de tener, en n ensayos, x éxitos consecutivos seguidos de n 
-x fracasos consecutivos. Dado que, por hipótesis, los n ensayos son independientes 
de la definición 2.15, se tiene: 

p ■ p - p ■ (I - p)(\ - p) - (1 - p) = p y (\ - p)'-\ 



x términos (n - x) términos 

La probabilidad de obtener exactamente x éxitos y n - x fracasos en cualquier otro 
orden es la misma puesto que los factores p y (1 - p) se reordenan de acuerdo con el 
orden particular. Por lo tanto, la probabilidad de tener x éxitos y n - x fracasos en 
cualquier orden, es el producto de p x ( 1 - p)"~ x por el número de órdenes distintos. 
Este último es el número de combinaciones de n objetos tomando x a la vez. De 
acuerdo con lo anterior se tiene la siguiente definición: 

Definición 4.1 Sea X una variable aleatoria que representa el número de éxitos en n 
ensayos y p la probabilidad de éxito con cualquiera de éstos. Se dice entonces que X 
tiene una distribución binomial con función de probabilidad.* 

, n \. , P'C ~ P)"- x * = 0,1,2,...,/!, 
pU;n,p) = \^- x)[x] - (4.1) 

para cualquier otro valor. =£ p =s 1 , para n entero. 

Los parámetros de la distribución binomial son n y p. Éstos definen una familia 
de distribuciones binomiales, en donde cada miembro tiene la función de probabili- 
dad determinada por (4.1). Para ilustrar el efecto de estos parámetros, la figura 4.1 
proporciona algunas gráficas de la distribución binomial. Se dará más información 
sobre éstas cuando se discutan los momentos y otras medidas descriptivas. 

El nombre "distribución binomial" proviene del hecho de que los valores de p 
(x; n, p) para* = 0, 1, 2 ... n son los términos sucesivos de la expansión binomial de 
[(I - p) + p\"\ estoes, 

* Para mantener la consistencia, se empleará la notación p{ ) para indicar la función básica de probabili- 
dad. El autor no piensa que el lector se confundirá por el empleo de/? (x; n, p) para la función de probabi- 
lidad binomial y el uso de la letra p para el parámetro de proporción. 



4.2 La distribución binomial 5»l 



x 







n = 


-5 


p = 0.2 


0.4 


- 




0.3 


- 




\ 


0.2 










0.1 








1 . . 





n = 


= 5, 


P 


= 0.5 


0.4 




0.3 






\ 


0.2 


- 






0.1 


1 








1 



12 3 4 5 



12 3 4 5 





n = S,p 


= 


0.8 




0.4 






0.3 








0.2 










0.1 











12 3 4 5a: 



FIGURA 4.1 Gráficas de la función binomial de probabilidad 



[(!-/>) + pT = U - P)" + "(1 " P)"-'p + " ( " 'N i - P)" 2 P 2 + - + P" 



^ (n - x)\x\ 

n 

= 2) />(*; n, p). 



Pero dado que [(1 - p) + p]" = 1 y p(x; n, p) 2* para* = 0, 1, 2 ... /i, este 
hecho también verifica que p (x; n, p) es una función de probabilidad. 

Para ilustrar el cálculo de probabilidad mediante el empleo de (4.1) sea n = 5 y 
p = 0.4 entonces: 



asi: 



p(x; 5, 0.4) = 

p(0; 5, 0.4) = 
p(l; 5,0.4) = 
P(2; 5, 0.4) = 
p(3;5, 0.4) = 



5! 



(5 - x)lx\ 



5! 



(5 


- 0)!0! 




5! 


(5 


- 1)!1! 




5! 


(5 


- 2)!2! 




5! 



(5 - 3)!3! 



(0.4) J (0.6) W , x = 0, 1,2, 3, 4, 5; 

(0.4)"(0.6) 5 " = 0.0778, 
Í0.4)'(0.6) í_l = 0.2592, 
(0.4) : (0.6) s: = 0.3456, 
(0.4) 3 (0.6) 5 " J = 0.2304. 



92 Algunas distribuciones discretas de probabilidad 

/>(4; 5, 0.4) = _ 5 ^ )¡4! (0.4) 4 (0.6) 5 - 4 = 0.0768, 

P(5\ 5, 0.4) = J' ¡5! (0.4) J (0.6) J - J = 0.0102. 

La probabilidad de que una variable aleatoria AT sea menor o igual a un valor 
específico de x, se determina por la función de distribución acumulativa 

P{X « jc) = F(x; n,p)=2 (fj pW ~ />)""'• (4.2) 

La distribución binomial se ha tabulado de manera extensa para distintos valores 
de n y p, ya sea mediante el empleo de (4.1) o (4.2) o ambas. En la tabla A del apén- 
dice, se proporcionan las probabilidades acumulativas para distintos valores de x, n, y 
p. Pueden determinarse las probabilidades individuales mediante el empleo de esta 
tabla puesto que la variable aleatoria binomial tiene un valor entero, y la propiedad 

p(x; n,p) = F(x; n,p) - F(x - \\n,p) 

se verifica. Para ilustrar el uso de la tabla A, sea n = 10 y p = 0.3. La probabilidad 
de que X pueda ser cuatro es: 

P(X ss 4) = F(4; 10, 0.3) = 0.8497; 
la probabilidad de que X sea mayor de dos es: 

P(X > 2) = P(X ^ 3) = 1 - P(X « 2) = 1 - F(2; 10, 0.3) = 0.6172; 
y la probabilidad de que X sea de exactamente cinco es: 

p(5; 10, 0.3) = F(5; 10, 0.3) - F(4; 10, 0.3) = 0.1030. 
Debe notarse que si n = 1 , la función de probabilidad binomial se reduce a: 

p x (l - p) l ~ x x = 0, I, 
p{x\ p) = i (4.3) 

para cualquier otro valor, 

que es la función de probabilidad de la distribución puntual o de Bernoulli. La 
distribución de Bernoulli recibe este nombre por el probabilista suizo Jacques Ber- 
noulli (1654-1705) quien desarrolló por primera vez el concepto de ensayos indepen- 
dientes. 

Ejemplo 4. 1 Todos los días se seleccionan, de manera aleatoria, 15 unidades de un 
proceso de manufactura con el propósito de verificar el porcentaje de unidades de- 
fectuosas en la producción. Con base en información pasada, la probabilidad de te- 
ner una unidad defectuosa es de 0.05. La gerencia ha decidido detener la producción 



4.2 La distribución binomial 93 

cada vez que una muestra de 15 unidades tenga dos o más defectuosas. ¿Cuál es la 
probabilidad de que, en cualquier día, la producción se detenga? 

Si el modelo apropiado para esta situación es la distribución binomial, se puede 
suponer que las 15 unidades que se seleccionan al día, constituyen un conjunto de 
ensayos independientes de manera tal que la probabilidad de tener una unidad defec- 
tuosa es 0.05 entre ensayos. Sea X el número de unidades defectuosas que se en- 
cuentran entre las 15. Paran = 15 yp = 0.05, la probabilidad de que la producción se 
detenga es igual a la probabilidad de que X sea igual o mayor que dos. De esta ma- 
nera: 

P(X s* 2) = 1 - P(X « 1) = 1 - F(l; 15, 0.05) = 0.1709. 

Ejemplo 4.2 Supóngase que para personas de determinada edad, la probabilidad 
de que mueran por una enfermedad transmisible es 0.001 . ¿Cuántas personas de este 
grupo pueden exponerse a la enfermedad de manera que la probabilidad de que no 
más de una persona muera sea por lo menc3 0.95? 

Para aplicar la distribución binomial a esta situación, la suposición crucial es que 
la probabilidad de muerte es constante para todos los individuos que forman parte 
del grupo y que contraen la enfermedad. Sea X el número de muertes que ocurren en 
n individuos por haber contraído el padecimiento. El valor de n para que la probabi- 
lidad de que X sea menor o igual a uno tenga un valor mayor o igual a 0.95: 

P{X^ 1) = F(\;n, 0.001)^0.95, 
y para la igualdad: 

X (" ) (0.00ir(0.999)"- t = 0.95 

¡Jl (0.001)°(0.999)" + í") (0.001)'(0.999)"- 1 = 0.95 

(0.999)" '(0.999 + O.OOIk) = 0.95. 

Esta ecuación no se resuelve de manera explícita para n; sin embargo, mediante el 
empleo de técnicas iterativas* puede determinarse que el valor entero de n que satis- 
face la ecuación es n = 356. 

En este punto se determinarán los momentos para la distribución binomial. Se 
ilustrarán tanto el método directo, con base en la definición 3.8, como el método in- 
directo, con base en la función generadora de momentos. 



* Una técnica iterativa es un método numérico para resolver una ecuación mediante una sucesión de valo- 
res hasta que el último valor se encuentra muy cercano al que satisface la ecuación. 



94 Algunas distribuciones discretas de probabilidad f 

Por la definición 3.8, el primer momento alrededor del cero de la variable aleato- 
ria binomial X es el valor esperado de X, 



x %" (n - x)\x\ 



£ w= É* ,_ \ , ^o -p)" 



2* . "\. , pV - pT 

x=l (n - x)\x\ 



= 2-, £ 777 P*U ' P)"~\ 

en donde se ha escrito la suma desde uno hasta n, dado que cuando x = el primer 
término es cero y se cancela la x del numerador con la x en x!. Factorizando nyp,se 
tiene: 

Si y = x ~1 y m = n-\, entonces: 

m . 

W) = n P 2 Ví^ 1 - Py~ y - 

,-o('" - v)!y! 

Pero p(y; m, p) = [m!/(m - y)ly\]p y (l - p) m ~ y es la función de probabili- 
dad de una variable aleatoria binomial y con parámetros m = n - 1 yp; de esta ma- 
nera £™ =0 p(y; m, p) = 1, y la media de una variable aleatoria binomial es: 

E{X) = /i = np. (4.4) 

Para obtener la varianza, se necesita el segundo momento alrededor del cero, (¿2, 
o: 

n 

E(x 2 )= 2* 2 p U;«,p); 

x = 

pero, en el término x ¿ /x ! se cancelará una sola x en el numerador, y la que resta evi- 
tará que la suma se manipule de la misma forma en que se determinó la media. La al- 
ternativa es escribir x 1 como: 

-v 2 = x(x - 1) ' + x\ 
de esta manera se tiene: 

E(X 2 ) = E[X(X - 1)] + E(X). (4.5) 

Dado que E(X) ya se ha determinado, puede usarse el mismo procedimiento para 



4.2 La distribución binomial 95 



evaluar E[X(X - 1)]: 

E[X(X - 1)] = Z x(* ~ 1) "" 



t = 



(n - x)\x\ 



pV ~ p)"~ 



x = 2 

= 2 



«• 



i \ 



;P*(1 -/>)" 



-t = 2 



(« - x)!(* - 2)! 



(n - *)!*! 

P x (\ - pT 



= "(" - DP 2 ¿ . ( " w 2)! 9 „ ^" 2 (l " P) n ~ x 
fZ 2 (n - x)\{x - 2)! 

Nótese que en los pasos anteriores se escribió la suma a partir de dos porque los dos 
primeros términos son cero, se canceló x(x - 1), y se factorizó n(n - X)p 2 . Sea 
y = x - 2 y m = n — 2; entonces: 



E[X(X - 1)] = n(n - \)p 2 £ W - d\\ - p) 

y = (m - y)\y\ 

m 

= n(n - l)p 2 2 P(y,m,p) 
= n(n - \)p\ 



De (4.5) 



E(X 2 ) = n' 2 = n(n - l)p 2 + np. 

De esta manera, la varianza de una variable aleatoria binomial es: 
Var{X) = n' 2 - M 2 

= /j(/i - l)p 2 + np - /i 2 p 2 
= np [(n - l)p + 1 - np] 
= np{l - p). 



(4.6) 



Este método general puede extenderse para determinar los momentos de orden 
superior. Por ejemplo, para obtener el tercer momento alrededor del cero, se deter- 
mina E[X(X - l)(X - 2)] dado que: 

E[X(X - 1)(X - 2)]* = M3 - 3/iJ + 2/i. (4- 7 ) 

De manera similar, para el cuarto momento alrededor del cero se evalúa E[X{X - 1 ) 



96 Algunas distribuciones discretas de probabilidad 
(X - 2){X - 3)] dado que: 

E[X(X - \){X - 2)(X - 3)]* = M ; - 6/*J + 1 1/*2 - 6/i. (4.8) 

Para una variable aleatoria binomial: 

E[X(X - l)(X - 2)] = 2 x(x - l)(x - 2) . "\,, PV - P)"- X 

-f-^-v. t ( „^ 3) , p-'o-p)- 

= «(« - !)(« - 2)p 3 2 , / "\, , P v (l - P)" - ' 
;r (w - y)!y! 

= /!(/! - 1)(/I - 2) P 3 . 

Mediante el empleo de (4.7), 

>á - 3/l¿2 + 2/Li = n(/z - I)(/i - 2)p 3 

ju.; = /i(/i - l)(/z - 2)p 3 + 3[/i(« - l)p : + np] - 2np 

= n(n - !)(«- 2)p 3 + 3/z(" - l)p 2 + np. (4.9) 

El tercer momento central fi } puede determinarse por (3.8), 
pi 3 = /i(i - l)(n - 2)p } + 3n(n - \)p 7 + np - 3np[n(n - \)p 2 + np] + 2n 3 p } , 
la que, después de un poco de álgebra, se reduce a: 

/* 3 = np(\ - p)(\ - 2p). (4.10) 

Por lo tanto, de (3.9) el tercer momento estandarizado de la distribución binomial es: 

np(\ - p)(l - 2p) 



<*i 



[np(\ - p)] i/2 

np{\ - p)(\ - 2p) 
np(\ - p)[np(\ - p)Y n 

1 ~ 2p 
[np(\ - p)] l/2 " 



(4.11) 



* Expresiones como éstas dan lo que se conoce como momentos factoriales. De hecho, el /--ésimo momen- ¡ 

to factorial de una variable aleatoria X es E[X(X - \)(X - 2) ■■■ (X - r + l)|. j 

\ 



4.2 La distribución binomial 97 
Para «1 cuarto momento alrededor del cero, se tiene: 

E[X(X - l)(X - 2)(X - 3)] = 2 x(x - l)(x - 2)(x - 3) . 

p*(l - p) n -' 



(n - x)\xl 



= n(n - l)(n - 2)(n - 3)p 4 



^ : — p o - ?y~ x 

= n(n - 1)(* - 2)(n - 3)p 4 

•S , m ' v , p y (i-p) m ' y 

>= (m - y)!y! 

= «(/i - l)(/i - 2)(n - 3)p 4 . 
Sustituir en (4.8) y para resolver /x 4 , se tiene: 

HÍ = n(n - l)(/i - 2)(/i - 3)p 4 + 6[/i(/i - l)(/i - 2)p 2 

+ 3/i(/i - l)p 2 + np] - \l[n(n - \)p 2 + np] + 6np. (4.12) 
De acuerdo con (3.10), el cuarto momento central es: 
/x 4 = /x 4 - 4/x/x; + 6/í 2 /í2 - 3/x\ 
el que, después de una sustitución adecuada y un poco de manipulación algebraica, es 
/x 4 = np(\ - p){3np(\ - p) + [1 - 6p(l - p)]}. (4.13) 

De acuerdo con (3. 1 1), el cuarto momento estandarizado de la distribución binomial 
es: 

np{\ - p) {3np(l - p) + [1 - 6p(l - p)]} [1 - 6p(l - p)] 

o, 4 = __ = 3 + — . (4.14) 

n P (1 - p) /ip(l - p) 

Las propiedades básicas de la distribución binomial se encuentran resumidas en 
la tabla 4.1. Nótese que la media de una variable aleatoria binomial es el producto 
del número de ensayos y la probabilidad de éxito en cada uno de éstos y la varianza 
es el producto de la media por la probabilidad de tener un fracaso. La varianza de 
una variable aleatoria binomial siempre es menor que el valor de su media. 



98 Algunas distribuciones discretas de probabilidad 
TABLA 4.1 Propiedades básicas de la distribución binomial. 
Función de probabilidad 



Parámetros 



n\ 



x = 0, 1, 2, ..., n 



n, entero positivo 
p, « p « 1 



Media 



Varianza 



Coeficiente de 
sesgo 



Curtosis relativa 



\-2p 



np 



np(\ - p) 



[np(\ - p)] 



1/2 



3 + 



[1 - 6p(l - p)] 
np(\ - p) 



Para obtener una mejor perspectiva de la distribución binomial y de su forrea, c " 
calcularán a 3 y a A para distintos valores del parámetro o, de acuerdo con la tabla 
4.2. Puede concluirse a partir de ésta, que la distribución binomial es simétrica si p 
= 1/2, con sesgo positivo si p < 1/2, y sesgada negativamente si p > 1/2. Para 
los últimos dos casos, el sesgo se vuelve menos evidente conforme n es más grande. 
Además, la distribución binomial es relativamente plana s\p - 1/2. Para cualquier 
otro valor de/;, la distribución binomial presenta un pico relativamente grande. Sin 
embargo, si n es grande a 4 tiende a tres para cualquier valor de p y la distribución 
es mesocúrtica. 

De acuerdo con la definición 3.14, la función generadora de momentos para la 
distribución binomial es: 

m x (t) = E(e' x ) = 2 e" "\ , p x {\ ~ p)"' x 
^=0 \fi x).x. 



,=o(rt - *) ! * ! 
= (1 - p) n + n{\ - P y-\e'p) 

+ ^(i-p)"-Vp) 2 +- + (e' P y 

= [(1 - p) + e'pf. 



(4.15) 



TABLA 4.2 Factores de forma de la distribución binomial para distintos valores de p 



P = 1/10 

8 

3\/ñ 



P = 1/2 



p = 9/10 



oía 



3 + 



46 
9n 



3 + 



3vn 
46 



9/i 



4,2 La distribución binomial 99 
Al tomar las dos primeras derivadas de (4.15) con respecto a t, se tiene: 
dm x (t) 



dt 



= ne'p[(l - p) + e'p] 



'_!"-! 



d 2 m x (t) 
dt 2 



n(n - \)(e'p) 2 [(l - p) + e'p]"- 2 + ne'píd - p) + e'p] 



Si t = 0, se obtienen los momentos primero y segundo alrededor del cero, 
dm x (t) 



dt 



np[(\ - p) + PT 



np 



d 2 m x (t) 
di 2 



= ■«(« - \)p 2 [{\ - p) + p]"- 2 + np[(l - p) + p\- x 



r = 



= n(n - \)p + np, 

que son idénticos a los determinados mediante el empleo del método directo. Los 
momentos de orden superior pueden determinarse mediante la continuación de este 
proceso de diferenciación y al evaluar la derivada en t = 0. Nótese que para este 
caso los primeros dos momentos alrededor del cero se obtienen de manera más fácil 
empleando la función generadora de momentos que tiene el método directo. Sin em- 
bargo, esto no ocurre en general. 

Ejemplo 4.3 Un club nacional de automovilistas comienza una campaña telefónica 
con el propósito de aumentar el número de miembros. Con base en experiencia pre- 
via, se sabe que una de cada 20 personas que reciben la llamada se une al club. Si en 
un día 25 personas reciben la llamada telefónica ¿cuál es la probabilidad de que por 
lo menos dos de ellas se inscriban al club? ¿Cuál es el número esperado? 

Puesto que una de cada 20 personas se suscriben al club, p = 0.05. Además, si se 
supone que las 25 personas constituyen un conjunto de ensayos independientes (una 
suposición muy razonable en este caso) con una probabilidad constante/? = 0.05 de 
suscribirse al club, y si la variable aleatoria A' es el número, de entre n = 25, que ter- 
mina suscribiéndose al club, la probabilidad deseada es: 

P{X^2) = 1 - P{X^ 1) = 1 - F(l;25,0.05) = 0.3576. 
Mediante el empleo de (4.4), el valor esperado de X es E(X) = (25)(0.05) = 1 .25. 



I 



100 Algunas distribuciones discretas de probabilidad 

4.3 La distribución de Poisson 

Llamada así en honor de Simeón Denis Poisson, probabilista francés del siglo xix. 
quien fue el primero en describirla, es otra distribución discreta de probabilidad 
muy útil en la que la variable aleatoria representa el número de eventos independien- 
tes que ocurren a una velocidad constante. Muchos eventos aleatorios ocurren de 
manera independiente con una velocidad constante en el tiempo o en el espacio. Al- 
gunos ejemplos típicos son el número de personas que llegan a una tienda de auto- 
servicio en un tiempo determinado, el número de defectos en piezas similares para el 
material, el número de bacterias en un cultivo, el número de solicitudes de seguro 
procesadas por una compañía en un periodo específico, etc. De hecho, la distribu- 
ción de Poisson es el principal modelo de probabilidad empleado para analizar 
problemas de líneas de espera. Además, ofrece una aproximación excelente a la fun- 
ción de probabilidad binomial cuando p es pequeño y n grande. La deducción de la 
función de probabilidad de Poisson se desarrolla en un apéndice que se encuentra al 
final de este capítulo. 

Definición 4.2 Sea X una variable aleatoria que representa el número de eventos 
aleatorios independientes que ocurren a una rapidez constante sobre el tiempo o el 
espacio. Se dice entonces que la variable aleatoria X tiene una distribución de Pois- 
son con función de probabilidad. 



p(x; X) = - 



é? _ V 



x\ 







x = 0, 1,2, ...; X >0, 



para cualquier otro valor. 



(4.16) 



El parámetro de la distribución de Poisson es X, el número promedio de ocurren- 
cias del evento aleatorio por unidad de tiempo. Para valores mayores que cero, X defi- 
ne una familia de distribuciones con una función de probabilidad determinada por 
(4.16). En la figura 4.2 se proporcionan algunas gráficas de la función de probabili- 
dad de Poisson, para distintos valores de X : 



FIGURA 4.2 Gráficas de la función de probabilidad de Poisson 



0.4 






\ = 


= 1 


0.3 








0.2 








0.1 








1 .. 




X=4 



0.4 










0.3 


- 


0.2 


- 






0.1 


\_L 









J_L 



12 3 4 5 



12 3 4 5 6 



12 3 4 5 6 7 



9 x 



4.3 La distribución de Poisson 101 

Puede verificarse que (4.16) es una función de probabilidad, puesto que 
p(x; \)> para* = 0, 1, 2.. .y 

s x=Q x=0 X - 

= e~ k \ 1 + A + ^ + ■ 



= e"V 



= 1. 
Para ilustrar, sea A = 1.2; entonces 



í>- |2 1.2< 



A»(x; 1.2) = - — , jt = 0,1,2 

x\ 

De esta forma se tiene 

e"'- 2 1.2 e"'- 2 1.2 4 

p(0; 1.2) = A , = 0.3012, p(4; 1.2) = 4 , = 0.0260, 

. ... e''- 2 1.2 s 

p{\; 1.2) =■ rr — = 0.3614, p(5; 1.2) = 5 , = 0.0062, 





0! 


e~ 


'■ 2 1.2' 




1! 


e~ 


,2 1.2 2 




2! 


e~ 


12 1.2 3 



p(2; 1.2) = - 9 ;" = 0.2169, />(6; 1.2) = g J' 2 = 0.0012, 

. . .. e-'- 2 1.2 7 

p(3; 1.2) = — = 0.0867, />(7; 1.2) = ?¡ = 0.0002. 

A pesar de que puede continuarse este proceso sin finalizar, nótese que las proba- 
bilidades individuales son más y más pequeñas conforme la variable aleatoria toma 
valores cada vez más grandes. Ésta es una característica general de la distribución de 
Poisson. 

La probabilidad de que una variable aleatoria de Poisson X sea menor o igual a 
un valor de x se determina por la función de distribución acumulativa. 

'" p~ k \' 
P(X^x) = F(x;\) = E-^T- < 4 - 17 ) 

; = o '• 

En la tabla B del apéndice, se encuentra tabulada (4.17) para distintos valores dex y 
A. Nótese de nuevo que la variable aleatoria de Poisson tiene un valor entero, y que 
pueden usarse los valores de las probabilidades acumulativas de la tabla B para de- 



102 Algunas distribuciones discreías de probabilidad 

terminar las probabilidades individuales mediante el empleo de la relación: 

p(x;\) = F(x;\)-F(x- 1;X). 

A continuación se dan varios ejemplos del empleo de la tabla B. Sea X = 2.5. 
La probabilidad de que X sea menor que tres es: 

^ X "= * ;' ' Y *"■' P(X < 3) = P(X =s 2) = F(2; 2.5) = 0.5438; 



■Y 



la probabilidad de que X sea mayor que cuatro es: 



M 



P(X s* 4) = 1 - P(X*¿ 3) = 1 - F(3; 2.5) = 0.2424; 
y la probabilidad de que X tome el valor de dos está dada por: o. 

p(2; 2.5) = F(2; 2.5) - F(l; 2.5) = 0.2565. " / 



Ejemplo 4.4 Después de una prueba de laboratorio muy rigurosa con cierto compo- 
nente eléctrico, el fabricante determina que en promedio, sólo fallarán dos componen- 
tes antes de tener 1 000 horas de operación. Un comprador observa que son cinco los 
que fallan antes de las 1 000 horas. Si el número de componentes que fallan es una 
variable aleatoria de Poisson, ¿existe suficiente evidencia para dudar de la conclu- 
sión del fabricante? 

La duda en estadística puede apoyarse en términos de la probabilidad. Si un 
evento debe o no ocurrir bajo ciertas condiciones, su ocurrencia se decide en térmi- 
nos de la probabilidad del evento bajo esas condiciones. Si la probabilidad de 
ocurrencia es pequeña y el evento ocurre, entonces se puede preguntar, con justifica- 
ción, por las condiciones. Al mismo tiempo debe tenerse en mente que un valor de 
probabilidad pequeño no impide la ocurrencia del evento, a menos que este valor sea 
cero. En dicho caso, se tiene que X = 2. Se supone que la frecuencia con que 
ocurren las fallas es constante e igual a dos por cada mil horas o un promedio de 
1/500 unidades por hora. La probabilidad de que fallen cinco componentes en mil 
horas es: 

e~ 2 2 5 
p(5;2) = — = 0.0361, 

y la probabilidad de que por lo menos fallen cinco en 1 000 horas es: 

} ^ P(X^5) = 1 - F(4;2) = 0.0527. 

Ambas probabilidades son, de manera relativa, pequeñas. Esto es, si el número 
de fallas en mil horas está descrita de manera apropiada por la distribución de Pois- 
son con una frecuencia constante de dos, existe una probabilidad de observar exac- 
tamente cinco unidades defectuosas de 0.0361 y una probabilidad de 0.0527 de ob- 
servar por lo menos cinco en el mismo periodo de operación. Sin embargo, antes de 
tomar cualquier medida en contra del fabricante, es necesario contestar algunas pre- 



4.3 La distribución de Poisson 103 

guntas. Por ejemplo, ¿es la frecuencia de falla constante e igual a dos durante mil 
horas? Aun si lo anterior fuese cierto, ¿es el medio de operación el mismo bajo el 
cual el fabricante hizo sus pruebas? Esto es, ¿es posible tener factores extraños, 
introducidos de manera inadvertida, que estén causando un número tan alto de 
fallas? Las preguntas anteriores sólo pueden constestarse con una comprensión 
completa de la situación. 

. \ - 

Ejemplo 4.5 Considérese el juego de fútbol que se efectúa entre los 28 equipos que 
constituyen la Liga Nacional de Fútbol (NFL). Sea la variable aleatoria de interés el 
número de anotaciones — seis puntos (touchdowns) — de cada equipo por juego. 
Con el presente número de anotaciones por equipo en la temporada de 1979, ¿existe 
alguna razón para creer que el número de anotaciones es una variable aleatoria de 
Poisson? 

Para contestar a esta pregunta, se compararán los resultados observados con los 
que se esperarían si el número de anotaciones fuese una variable aleatoria de Pois- 
son, como se muestra en la tabla 4.3. La cuarta columna indica la probabilidad teó- 
rica para cada uno de los valores que aparecen en la primera columna, suponiendo 
que el número de anotaciones es una variable aleatoria de Poisson. 

Los valores de la cuarta columna se determinan con el cálculo del valor del pará- 
metro X de la distribución de Poisson y la evaluación de la función de probabilidad 
(4. 16) para los valores de la columna uno. El valor de \ se obtiene sumando los pro- 
ductos de las correspondientes posiciones de la primera y tercera columnas, 

k = (0X0.0781) + (1X0.22IO) + ••• + (7X0.0067) 
= 2.435 



TABLA 4.3 Distribución del número de anotaciones de seis puntos por equipo y por juego 
en la NFL, durante la temporada de 1979 





Número de 






Número 


Número de 


veces 


Frecuencia 


Probabilidad 


esperado de 


anotaciones 


observadas 


relativa 


teórica 


ocurrencias 





35 


0.0781 


0.0876 


39.24 


1 


99 


0.2210 


0.2133 


95.56 


2 


104 


0.2321 


0.2597 


116.34 


3 


110 


0.2455 


0.2108 


94.44 


4 


62 


0.1384 


0.1283 


57.48 


5 


25 


0.0558 


0.0625 


28.00 


6 


10 


0.0223 


0.0254 


11.38 


7* 


3 


0.0067 


0.0124 


5.56 


Totales 


448 


0.9999 


1.0000 


448 



* En realidad, esta cifra representa siete o mas anotaciones, pero su ocurrencia es definitivamente escasa 
en la NFL. 



:# 



104 Algunas distribuciones discreías de probabilidad 

lo que representa el números promedio de anotaciones por equipo y por juego. Las 
probabilidades puntuales se calculan mediante el empleo de: 

p(x; 2.435) = ¡ x = 0, 1, 2 

xl 

Éstos son los primeros siete renglones de la cuarta columna. El último renglón es la f 

probabilidad de que X sea mayor o igual a siete. Los renglones de la última columna 
se encuentran multiplicando cada renglón de la columna cuatro por 448. 

La comparación de las columnas dos y cinco, o de las columnas tres y cuatro, re- 
vela una concordancia muy razonable. Por lo tanto, puede concluirse que el número 
de anotaciones es una variable aleatoria de Poisson. Que la variable aleatoria sea del 
tipo Poisson, se basa en que el número de anotaciones por equipo y por juego en la 
NFL es un conjunto de eventos aleatorios independientes, de manera que la frecuen- 
cia de anotación es constante durante los 60 minutos del juego. La frecuencia de 
anotación puede ser más constante en la NFL como consecuencia de la calidad del 
juego y del oponente que en el fútbol colegial. 

La distribución de Poisson también es una forma límite de la distribución bino- 
mial cuando n —> » y /? -» de manera que no permanece constante. Este resul- 
tado se obtiene mediante el siguiente teorema, formulado por Simeón Poisson. 

Teorema 4.1 Sea X una variable aleatoria con distribución binomial y función de 
probabilidad: 

p(x; n,p) = ^—- P V - p) tt - r x = 0, I, 2, ... n. 

(n - x)'x\ 

Si para n = 1, 2 ... la relación p = k/n es cierta para alguna constante k > 0, en- 
tonces: 

e~ K k< 

lím p(x;n,p) = — — , x = 0,1,2 

„^« x\ 

La prueba del teorema 4. 1 se proporciona en un apéndice al final del capítulo. 

En el contexto del teorema 4. 1 , la distribución de Poisson se piensa como aquélla 
en la que la variable aleatoria puede tomar valores distintos (n es grande pero las 
probabilidades son pequeñas) y — p = k/n tiene un valor cercano a cero. Como 
resultado, la función de probabilidad de Poisson se emplea de manera extensa para 
aproximar la función de probabilidad binomial cuando n es, de manera relativa, 
grande y p pequeño, de manera tal que X = np tiene un valor moderado. En la tabla 
4.4. se ilustra la mejoría en la aproximación Poisson de la función de probabilidad 
binomial conforme n crece y p decrece tal que X = np permanece constante e igual 
a dos. 

Ejemplo 4. 6 Un comprador de grandes cantidades de circuitos integrados ha adop- 
tado un plan para aceptar un envío de éstos y que consiste en inspeccionar una 



4.3 La distribución de Poisson 105 
TABLA 4.4 ; Comparación de las probabilidades binomial y de Poisson 









Binomial 




de Poisson 


X 


p(x\ 10, 0.2) 


p{x; 20, 0.1) 


p(x; 40, 0.05) 


p(x; 100, 0.02) 


P(x;2) 





O.I074 N 


0.1216 


0.1285 


0.1326 


0.1353 


1 


0.2684 


0.2702 


0.2706. 


0.2707 


0.2707 


2 


0.3020 


0.2852 


0.2777 


0.2734 


0.2707 


3 


0.2013 


0.1901 


0.1851 


0.1823 


0.1804 


4 


0.0881 


0.0898 


0.0901 


0.0902 


0.0902 


5 


0.0264 


0.0319 


0.0342 


0.0353 


0.0361 


6 


0.0055 


0.0089 


0.0105 


0.0114 


0.0120 


7 


0.0008 


0.0020 


0.0027 


0.0031 


0.0034 


8 


0.0001 


0.0004 


0.0006 


0.0007 


0.0009 


9 


0.0000 


0.0001 


0.0001 


0.0002 


0.0002 



muestra aleatoria de 100 circuitos provenientes del lote. Si el comprador encuentra 
no más de dos circuitos defectuosos en la muestra, acepta el lote; de otra forma, lo 
rechaza. Si se envía al comprador un lote que contiene 1 % de circuitos defectuosos, 
¿cuál es la probabilidad de que éste sea aceptado? 

Sea X la variable aleatoria que representa el número de circuitos defectuosos en- 
contrados en una muestra de 100 y supóngase que atiene una distribución binomial. 
En otras palabras, se supone que los 100 circuitos seleccionados del lote constituyen 
100 ensayos independientes, de manera tal que la probabilidad de tener un circuito 
defectuoso es constante e igual a 0.01 . La probabilidad de aceptar el lote es la misma 
de X con valor menor o igual a dos. Dado que n = 100 es relativamente un valor 
grande y p = 0.01 es pequeño; la probabilidad binomial puede aproximarse median- 
te la distribución de Poisson, escogiendo X = np = 1 : 

P( aceptación) = P(X =£ 2) = F P *(2; 1) = 0.9197. 

Debe notarse por comparación que si se empleara la distribución binomial se 
tendría: 

P(X =s 2) = F B *(2; 100, 0.01) = 0.9206. 

Los momentos de la variable aleatoria de Poisson se determinan mediante los 
mismos procedimientos utilizados para obtener los momentos de la variable aleatoria 
binomial. Si X es una variable aleatoria de Poisson, su valor esperado es: 



.V! 



= e 



Er 



X a 



(.v - I)! 



* Se emplean ios subíndices para distinguir entre las dos funciones de distribución. Se emplearán las mis- 
mas marcas para distinguir entre dos funciones de probabilidad, cuando sea necesario. 



106 Algunas distribuciones discretas de probabilidad 

" a*-' 



x*-*2 



x-,.U- D! 

* x v 
= Xf- x 2--¡. y = x- \ 



Para la varianza A': 



(4.18) 



£W*- i)] = 2 xa- i) 



= xv k 2 x 



jc! 

-2 



Entonces, de (4.5): 



y la varianza de X es: 



,= 2 a-2)¡ 

= X 2 . (4.19) 

E(X 2 ) = n' 2 = X 2 + X, 

Var(*) = ^ - /x 2 

= X 2 + X - X 2 

= X. (4.20) 

De esta manera, una característica distintiva de la variable aleatoria de Poisson es 
que su media es igual a su varianza. 

El ejercicio para el lector es que demuestre que, para el tercer momento central, 
se tiene: 

E[X(X - l)(X - 2)] = X 3 . (4.21) 

Mediante el empleo de (4.7): 

Hi = X 3 + 3X 2 + X, 
y el tercer momento central es: 

/x 3 = X. 
Como resultado, el coeficiente de asimetría se determina por: 

«3 = ^/V>i n = 1/Vx. (4.22) 






4.3 La distribución de Poisson Wl 

Para el cuarto momento central puede emplearse el mismo procedimiento para 
demostrar que: 

E\X(X - l)(X - 2)(X - 3)] = X 4 , (4.23) 

y de (4.8): 

MÍ = X 4 + 6X 3 + 7X 2 t X. (4.24) 

Mediante el empleo de (3.10) el cuarto momento central es: 

/i 4 = 3X 2 + X, 
y el cuarto momento estandarizado para la distribución de Poisson lo establece: 



«4 = V-JÁ = 3 + -. 



(4.25) 



Se proporciona un resumen de las propiedades de la distribución de Poisson en la 
tabla 4.5. La distribución de Poisson se encuentra sesgada positivamente para cual- 
quier valor X > 0, pero la asimetría disminuye para valores relativamente grandes 
de X. Además, la distribución de Poisson es leptocúrtica, puesto que a 4 es mayor 
que tres, pero tiende a convertirse en mesocúrtica para valores grandes de X. 

La función generadora de momentos para la distribución de Poisson se determi- 
na por: 



-k\X 






= e-2 



(ke'Y 



= e~ x e Xe ' 



= exp [X(e' - 1)]. 



(4.26) 



TABLA 4.5 Propiedades básicas de la distribución de Poisson 
Función de probabilidad 



Parámetro 



p(x; k) = 






x = 0, 1,2, 



Media 



Varianza 



Coeficiente 
de asimetría 

1 

Vi 



K > 



Curtosis relativa 



3 + 



108 Algunas distribuciones discretas de probabilidad 

Nótese que, como se esperaba: m x (0) — e M, ~ l) = 1. El ejercicio para el lector es 
demostrar que (4.26) da los momentos de la variable aleatoria de Poisson después de 
llevar a cabo el proceso de diferenciación apropiado. 

En conclusión, la distribución de Poisson es leptocúrtica con un sesgo positivo y 
se emplea para modelar el número de eventos aleatorios independientes que ocurren 
a una rapidez constante ya sea sobre el tiempo o el espacio. Se ha empleado de mane- 
ra extensa para el estudio de línea de espera, confiabilidad y control de calidad. Es | 
también una forma limite de la distribución binomial y la aproxima de manera ade- 
cuada para valores grandes de n y pequeños dep. Sin embargo, debe aplicarse cuida- 
dosamente la distribución de Poisson a situaciones en las que las condiciones de in- 
dependencia y rapidez constante de ocurrencia son dudosas. 

Por ejemplo, considérese la distribución del número de infracciones recibidas por 
los automovilistas en un periodo de diez años. Puede argumentarse que la distribu- 
ción de Poisson es el modelo de probabilidad adecuado, pues la probabilidd de reci- 
bir una infracción en un día cualquiera es pequeña y ha.? muchos días en diez años. 
Sin embargo, no es común que las condiciones de independencia y rapidez constante 
sean válidas. La independencia es dudosa debido a que si un automovilista en parti- 
cular recibe una infracción, es razonable pensar que manejará de manera más cuida- 
dosa. En grupos de distinta edad esta frecuencia puede variar, ya que las compañías 
aseguradoras sostienen que los conductores de mayor edad respetan más los límites 
de velocidad que los conductores jóvenes. 



4.4. La distribución hipergeométrica 

Para establecer las condiciones básicas que llevan a otra distribución discreta de pro- 
babilidad conocida como hipergeométrica, considérese el siguiente problema: sea TV el 
número de representantes de un determinado estado que asisten a una convención 
política nacional, y sea k el número de los que apoyan al candidato A, mientras 
que el resto N ~ k apoya al candidato B. Supóngase que una organización informativa 
selecciona aleatoriamente a n representantes y les pregunta sus razones para apoyar 
a los candidatos. Si X es una variable aleatoria que sustituye el número de represen- 
tantes en la muestra que apoyan al candidato A, ¿cuál es la función de probabilidad 
de .Y? 

Esta situación parece ser binomial porque entre N representantes de un estado 
existen dos grupos distintos con probabilidad k/Ny (N ~k)/N. Sin embargo, consi- 
dérese con más detalle el proceso de selección para la muestra de n representantes. 
Es razonable suponer que se selecciona un representante, se le preguntan sus razones 
y no vuelve a ser seleccionado. * El resultado es que no existe independencia entre la 
selección de un representante y el siguiente. Por ejemplo, supóngase que el primer 
representante seleccionado apoya al candidato A. Entonces quedan N - 1 represen- 
tantes de los cuales k ~ 1 apoya a A. Por lo tanto, la probabilidad condicional de que 



* Esto se conoce como muestreo sin reemplazo y es una condición fundamental para la distribución hi- 
pergeométrica. En la distribución binomial, se supone que el muestreo se hace con reemplazo, aseguran- 
do la independencia y la probabilidad constante. 



! ? 



4.4 La distribución hipergeométrica 109 

el siguiente candidato apoye también a A es (k - \)/{N - 1) y no k/N, y la probabili- 
dad condicional de que el siguiente representante apoye a B es (N -k)/(N - 1) y no 
(N-k)/N. 

Para determinar la probabilidad de que, de maneras exacta, se seleccionen x 
representantes que apoyen a A y n - x que apoyen a B, se procederá de la siguiente 
forma: el número de maneras distintas en que puede seleccionarse una muestra de n 
representantes de un total de N es O ; y cada muestra tiene una probabilidad de selec- 
ción igual a 1/C). De manera similar, la selección de x personas que apoyen a A es 
un evento que puede ocurrir de (í ) maneras distintas, y la selección de (n -x) repre- 
sentantes que apoyen a B es un evento que puede suceder de C„ ~- k x ) maneras. El nú- 
mero total de maneras en que ambos eventos pueden ocurrir es (* )(^ Z *) . De esta 
forma, la probabilidad de seleccionar x representantes que apoyen al candidato A es 

(i)(?:í 

P(x) = 






Definición 4.3 Sea Nel número total de objetos en una población finita, de mane- 
ra tal que k de éstos es de un tipo yN-kde otros. Si se selecciona una muestra alea- 
toria* de la población constituida por n objetos de la probabilidad de que x sea de un 
tipo exactamente y n - x sea del otro, está dada por la función de probabilidad hi- 
pergeométrica: 

r/ k\¡N - A 

n-xj x = 0,1,2 n; x « k, n - x =£ N - k; 

/v\ N, n, k, enteros positivos, (4.27) 

.0 para cualquier otro valor 



p(x\ N, n, k) = 



Los parámetros de la distribución hipergeométrica son N, n, y k. Éstos definen 
una familia de distribuciones con función de probabilidad determinada por (4.27). 
En la figura 4.3 se muestran algunas gráficas de (4.27) para distintas combinaciones 
de N, n, y k. 

La función de probabilidad (4.27) de la distribución hipergeométrica y la función 
de distribución acumulativa, definida por: 

'k\ (N - k 



i ) \n — i 
P(X « x) = F(x; N, n, k) = £ '-, < 4 - 28 ) 

V 



* Véase el capítulo siete para la definición de una muestra aleatoria. 



110 Algunas distribuciones discreías de probabilidad 



0.4 






N= 10 
n = 5 


0.4 




N= 10 
« = 4 


0.3 

X 

X 0.2 


_ l 




Jfc = 5 


0.3 
0.2 






Jfc = 4 


0.1 


" 1 




1 


0.1 


± 




1 




o i : 


! 3 4 5 




1 2 3 4 x 



FIGURA 4.3 Gráficas de la función hipergeométrica de probabilidad 



se encuentra tabulada en [4] para valores de N, n, y k desde N = 2, « = 1 hasta Af 
= 100 y « = 50. Una parte de éstas se encuentra en la tabla C del apéndice. El cálcu- 
lo de las probabilidades hipergeométricas puede convertirse en tedioso, especialmen- 
te si n es grande. Sin embargo, puede simplificarse si se emplea la siguiente fórmula 
de reclusión, 



p(x + 1;7V, n, k) = 



(n - x)(k - x) 



p(x;N,n,k), (4.29) 



(x + 1)(N - k- n + x + 1) 
la cual se puede obtener directamente de la función de probabilidad hipergeométrica. 



Ejemplo 4. 7 Supóngase que se tienen 50 representantes de cierto estado, a una con- 
vención política nacional, de ios cuales 30 apoyan al candidato A y 20 al candidato B. 
Si se seleccionan aleatoriamente cinco representantes, ¿cuál es la probabilidad de 
que, entre estos cinco, por lo menos dos apoyen al candidato A? 

Sea X la variable aleatoria que representa el número de personas en la muestra 
que apoyan a A. Para N = 50, n = 5, y k = 30, la función de probabilidad de X está 
dada por: 

p(.v;50, 5,30) = , x = 0, 1, ..., 5, 

50 

x 5 

y la probabilidad de que X s* 2 es: 



P(X ^ 2) = 1 - P{X =s 1) = i - [p{0; 50, 5, 30) + p{\ ; 50, 5, 30)]. 



4.4 La distribución hipergeoméírica 111 



Dado que: 



3 o°)(?) (?) 

p(0; 50, 5, 30) = = = 0.007317, 



;?) 



y, de (4.29): 



piU 50 ' 5 ' 30) S + iX^-T-l^o+i) ^ 50 ' 5 ' 30) = 0068597 ' 

se encuentra que: 

P(*ss 2) = 1 - (0.007317 + 0.068597) = 0.9241. 

Un área muy fructífera en aplicaciones para la distribución hipergeométrica es 
el control estadístico de calidad y la aceptación de muestreo. En este contexto sea N el 
número de unidades en un lote, de las cuales k se encuentran defectuosas. Si se selec- 
ciona una muestra aleatoria del lote formada por n < N unidades, la probabilidad 
de que la muestra contenga x unidades defectuosas se determina mediante el empleo de 
la función hipergeométrica de probabilidad (4.27). En aceptación del muestreo, la 
razón de que sólo se seleccione la muestra de un lote obedece más bien a restricciones 
de tiempo y dinero. La decisión de cuándo aceptar o rechazar un lote se basa, de ma- 
nera general, en el número de artículos defectuosos encontrados en él. Estos concep- 
tos se tratarán con gran detalle en el capítulo once. 

Ejemplo 4.8 Considérese un fabricante de automóviles que compra los motores a 
una compañía donde se fabrican bajo estrictas especificaciones. El fabricante recibe 
un lote de 40 motores. Su plan para aceptar el lote consiste en seleccionar ocho, de 
manera aleatoria, y someterlos a prueba. Si encuentra que ninguno de los motores 
presenta serios defectos, el fabricante acepta el lote; de otra forma lo rechaza. Si el 
lote contiene dos motores con serios defectos, ¿cuál es la probabilidad de que sea 
aceptado? 

Sea X el número de motores defectuosos en la muestra. Para N = 40, n = 8, y k 
= 2, la probabilidad de aceptación es 



P(0; 40, 8, 2) 



l u 8 



= 0.6359. 



De esta manera el lote 40 tiene una probabilidad menor de 2/3 de ser aceptado si 
contiene dos motores defectuosos. Debe notarse que la esencia del control 
estadístico de calidad es la mejoría de la calidad del producto. Si un vendedor sabe 



112 Algunas distribuciones discretas de probabilidad 

que su producto pasará por una selección que verifica la calidad del producto, puede 
poner en marcha en su propia fábrica un control de calidad intencionado con el pro- 
pósito de minimizar el número de lotes rechazados. Por lo tanto, es razonable supo- 
ner que esta práctica dará como resultado un producto de calidad superior. 

¿Qué pasa con la distribución hipergeométrica si el tamaño de la muestra n es 
sólo una pequeña fracción de un lote de tamaño N relativamente grande? Supóngase 
que se envía un lote de 2 mil unidades de las cuales 40 se encuentran defectuosas. Si 
se selecciona una muestra de 50, sin reemplazo, la probabilidad de que el primer ar- 
tículo seleccionado se encuentre defectuoso es de 40/2 000 = 0.02. La probabilidad 
condicional de que el segundo artículo también se encuentre defectuoso dado que el 
primero lo fue, es 39/1 999 = 0.0195. A pesar de que estas probabilidades no tienen 
el mismo valor, puede argumentarse, desde un punto de vista práctico, que la diferen- 
cia es insignificante. Es por esta razón que en muchas ocasiones se emplea la distri- 
bución binomial para aproximar a la distribución hipergeométrica cuando el cocien- 
te n/N es pequeño. 

Si la proporción de artículos defectuosos en el lote es p = k/N, puede escribirse 
la función de probabilidad hipergeométrica como: 

f Np\ÍN - Np^ 
x J\ n - x 

p H (x; N, n, p) = - — : (4.30) 

N 
n 

Puede demostrarse entonces que 

lím p H (x; N, n, p) = p B {x; n, p), 

en donde p B (x; n, p) es la función de probabilidad binomial. De esta forma la 
distribución hipergeométrica tiende a la binomial con parámetros n y p/k/N confor- 
me el Cociente n/N se vuelve más pequeño. De manera general, la función de probabi- 
lidad binomial aproximará de manera adecuada a (4.30) si se tiene que n < 0.1 /V. 
En la tabla 4.6 se proporcionan algunas comparaciones entre las probabilidades bi- 
nomial e hipergeométrica conforme el cociente n/N disminuye. 

Ejemplo 4.9 Un fabricante asegura que sólo el 1% de su producción total se en- 
cuentra defectuosa. Supóngase que se ordenan 100 artículos y se seleccionan 25 al 
azar para inspeccionarlos. Si el fabricante se encuentra en lo correcto, ¿cuál es la 
probabilidad de observar dos o más artículos defectuosos en la muestra? 

Sea X el número de artículos defectuosos en la muestra. Entonces X es una va- 
riable aleatoria hipergeométrica con parámetros N = 1 000, n = 25, y k = Np = 
(1 000)(0.01) = 10. Dado que el cociente n/N es, de forma considerable, menor de 
0. 1 , puede emplearse la distribución binomial para aproximar la probabilidad deseada: 

P(X^2) = \ - P(X^\) = \ - /•„(!: 25, 0.01) = 0.0258. 



I 
*• 



4.4 La distribución hipergeométrica 113 
TABLA 4.6 Comparación entre los valores de probabilidad binomial o hipergeométrica 





Hipergeométrica 


Binomial 


Hipergeométrica 


Binomial 


Hipergeométrica 


Binomial 


X 


p(x; 100, 20, 


5) 


p(x\ 20, 0.05) 


p(x 


; 100, 10, 


5) 


p(x; 10, 0.05) 


p(x 


r, 100, 5, 


5) 


p(x\ 5, 0.05) 





0.3193 




0.3585 




0.5838 




0.5987 




0.76% 




0.7738 


1 


0.4201 


*- 


0.3774 




0.3394 




0.3151 




0.2114 




0.2036 


2 


0.2073 




0.1887 




0.0702 




0.0746 




0.0184 




0.0214 


3 


0.0478 




0.0596 




0.0064 




0.0105 




0.0006 




0.001 1 


4 


0.0051 




0.0133 




0.0003 




0.0010 




0.0000 




0.0000 


5 


0.0002 




0.0022 




0.0000 




0.0001 




0.0000 




0.0000 



en donde F B (\; 25, 0.01) es la función de distribución acumulativa binomial. A 
continuación se analizará el proceso de decisión para este problema. La probabili- 
dad de tener dos o más artículos defectuosos en la muestra es muy pequeña. Supón- 
gase que se observan dos o más artículos defectuosos; entonces el proceso de decisión 
relativo al lote debe hacerse con base en la probabilidad. Esto es, si se supone que las 
condiciones son verdaderas, se ha observado algo que sólo tenía una oportunidad de 
2.5% de ocurrir. Por otro lado, si la aseveración del fabricante no es cierta y la pro- 
porción de artículos defectuosos es del 3%, entonces la probabilidad de observar dos 
o más defectuosos es 

P(X^2) = 1 - F(l;25,0.03) = 0.1720, 

que es un valor más plausible a la luz de la evidencia actual que es de 0.0258. De esta 
forma, si se observan dos o más artículos defectuosos de entre los 25, se debe recha- 
zar el lote. 

Para determinar la media de la distribución hipergeométrica se sigue un procedi- 
miento análogo al empleado para la distribución binomial. Si la función de probabi- 
lidad está dada por (4.27), 



E(X) = £ .v 



¿W/v- k 

xj\n - x 



= 2-' 





K 


\ 








U 


1 








k\ 


ÍN 


- 


") 


(A 


- x)\. 


v! V" 


— 


*) 




| 


'M 








\ 


K») 






(" 


~ l ) 


(N- 


A 


) 


V 


- V 


{"- 


X 


1 






114 Algunas distribuciones discretas de probabilidad 
pero puede demostrarse que: 



CH( 



N (N - 1 
n \n - 1 



o: 



Entonces: 



NI 



N 



(N- 1)! 



(N - nV.nl n l(N - n)l(n - 1)! ' 



E(X) = k X 



k - l\ÍN - k 
x — íl\n — x 



i N ÍN - í\ 
n\n-l) 



nk" U- 1 



SiAf=N-l,r = *-l,í 






yv ; 



n - 1 

1 y y = x - l, 

m/M - /• 

* - y 



(4.31) 



la suma es igual a uno dado que es la suma de una función de probabilidad hipergeo- 
métrica con parámetros M, s, y r. Nótese que si p = k/N, la media de la variable 
aleatoria hipergeométrica es la misma que la de la variable aleatoria binomial. 

Con el mismo procedimiento puede demostrarse que la varianza de una distribu- 
ción hipergeométrica es: 



Si p = k/N y (1 



VariX) 


nk(N - 

~ N 2 


k) 


(N - n) 
(N - 1) 


p) = (N 


- k)/N, 






Vnr(Y) 


- ,m(\ - 


n) 


ÍN - n\ 



(4.32) 



\N - 1/ 
La varianza de una variable aleatoria hipergeométrica es más pequeña que la corres- 



pondiente a la variable aleatoria binomíal por un factor de (/V - n)/(N — 1). Sin 
embargo, si N es grande al compararse con n, este factor se encontrará cercano a 
uno, dando como resultado una varianza prácticamente igual a la binomial. El resul- 
tado anterior era de esperarse ya que si n es sólo una pequeña fracción de un lote de 
tamaño N, la distribución hipergeométrica tiende a la distribución binomial. 

La determinación del coeficiente de asimetría y la curtosis relativa para la distri- 
bución hipergeométrica sigue el mismo procedimiento dado para la distribución bi- 
nomial. Estas cantidades se dan en la tabla 4.7. Nótese que para /V > 2, si /V < 2A 
o si N < 2/2, la distribución hipergeométrica se encuentra sesgada negativamente. 
Si yv = 2k o si N = 2/2, es simétrica. Si N > 2k y N > 2/2, la distribución se 
encuentra sesgada positivamente. El lector puede consultar [2] para la función gene- 
radora de momentos. Debe notarse que la función generadora de momentos repre- 
senta un trabajo muy tedioso para determinar los momentos. La tabla 4.7 propor- 
ciona un resumen de la información más importante para esta distribución. 



4.5 La distribución binomíal negativa 

Sea un escenario binomial en que se observa una secuencia de ensayos independien- 
tes; la probabilidad de éxito en cada ensayo es constante e igual ap. En lugar de fijar 
el número de ensayos en/iy observar el número de éxitos, supóngase que se conti- 
núan los ensayos hasta que han ocurrido exactamente k éxitos. En este caso, la va- 
riable aleatoria es el número de ensayos necesarios para observar k éxitos. Esta si- 
tuación lleva a lo que se conoce como la distribución binomial negativa. 



TABLA 4.7 Propiedades básicas de la distribución hipergeométrica 



Función de probabilidad 



Parámetros 



p(jc; N, n, k) = 



N - k 
n — x 



eo 



A', n, k, enteros positivos 
U n s N; 1 ss k s= N 

N = 1, 2, ... 





x = 0, 1,2, ..., n 
x =s k, n - x *£ N - 


- A: 








Media 


Varianza 




Coeficiente 
de asimetría 




Curtosis 
relativa 


nk 

N 


nk(N - k)(N - n) 
N\N - 1) 


(N 
(N- 


- 2k)(N - 2nKN - 
2)[nk(N - kKN - 


,)./2 

n)) U2 


* 



a, = 



N 2 (N 



(N - 2){N - 3)nk(N - k)(N - n) 



N(N + I) - 6n(W - n) + 3 — (N - k) [N 2 (n - 2) - Mr + bn(N - n)] 
N- 



p(x; k, p) 



(i , A x = O, 1,2, ... 

( íí , )p*n -/* * = i,2",... 

V ' 0«p«l, (4.34) 



,0 para cualquier otro valor 



La distribución se llama "binomial negativa" debido a que las probabilidades 
dadas por (4.34) corresponden a los términos sucesivos de la expansión binomial de: 

1 1 -P 

P P 

Los parámetros de la distribución binomial negativa son kyp,en donde k no ne- 
cesita ser un entero. Si es así, la distribución se conoce como distribución de Pascal, 
misma que se interpreta como el tiempo que hay que esperar para que ocurra el k 
éxito. Si k no es entero, la función de probabilidad dada por (4.34) se escribe de ma- 
nera tal que se involucre a la función gama, 



1t 



116 Algunas distribuciones discretas de probabilidad * 

1 

La determinación de la función de probabilidad sigue el mismo tipo de razona- 
miento empleado para obtener las funciones de probabilidad de las distribuciones 
binomial e hipergeométrica. Se desea determinar la probabilidad de que en el n- 
ésimo ensayo ocurra el ^-ésimo éxito. Si se continúan los ensayos independientes 
hasta que ocurre el ¿-ésimo éxito, entonces el resultado del último ensayo fue éxito. 
Antes del último ensayo, habían ocurrido k — \ éxitos en n - 1 ensayos. El número 
de maneras distintas en las que pueden observarse k - 1 éxitos en n - 1 ensayos es: f 

(l Z ¡). Por lo tanto, la probabilidad de tener k éxitos en n ensayos con el último { 

siendo un éxito, es: 

p(n; k, p)=(" k Z\) P*0 - P)"~ k n = k,k+\,k + 2 (4.33) 

La expresión (4.33) es la función de probabilidad de lo que se conoce como la 
distribución de Pascal. Mediante el empleo de (4.33) puede obtenerse la distribución 
binomial negativa sustituyendo n = x + k en (4.33), en donde x es el valor de una 
variable aleatoria que representa el número de fracasos hasta que se observan, de ma- 
nera exacta, k éxitos. 

Definición 4.4 Sea X + k, el número de ensayos independientes necesarios para 
alcanzar, de manera exacta, k éxitos en un experimento binomial en donde la proba- 
bilidad de éxito en cada ensayo es/?. Se dice entonces que X es una variable binomial 
negativa con función de probabilidad 



t 



\{k + x) . x = 0. 1,2. ... .. ... f 

' (x: *'' ) = -rfTfltr p(l ~' r *>o. o*„*i. (4J5) i 

En este contexto la distribución binomial negativa es un caso particular de la distri- 



4.5 La distribución binomial negativa 117 

bución de Poisson compuesta. Una distribución compuesta de una variable aleatoria 
X es aquella que depende de un parámetro que a su vez es una variable aleatoria con 
una distribución dada. En el capítulo seis se plantea este problema para la distribu- 
ción binomial negativa. 

Debe notarse que si k = 1 en (4.34), surge un caso especial de la distribución bi- 
nomial negativa, que se conoce con el nombre de distribución geométrica y cuya 
función de probabilidad está dada por 



p(x; p) = p(l - pf 



x = 0,l,2 O^p^l. 



(4.36) 



La variable aleatoria geométrica representa el número de fallas que ocurren antes de 
que se presente el primer éxito. En la figura 4.4 se ilustran varias gráficas de la fun- 
ción de probabilidad binomial negativa (4.34) para varios valores de k y p. 

En la referencia [6] se encuentra una extensa tabla de probabilidades individual y 
acumulativas para la distribución binomial negativa. Es posible emplearla distribu- 
ción binomial para obtener las probabilidades de la distribución binomial negativa. 
Puede demostrarse que si X es una variable aleatoria binomial negativa con función 
de probabilidad dada por (4.34), entonces: 

P{X^x) = P(Y^k), 



en donde Yes una variable aleatoria binomial con parámetros n = k + x y p. Esto 
es: 



F NB (x;k,p) = 1 - F B (k ~ 1 ; k + x, p), 



(4.37) 



en donde F NB (x; k, p) es la distribución binomial negativa acumulativa y F B (k - 
1; k + x, p) es la distribución binomial acumulativa. Mediante el empleo de (4.37) 
puede determinarse las probabilidades individuales de la distribución binomial negati- 
va. Por ejemplo, 



fc = 4,p = 0.5 



0.4 
0.3 
0.2 
0.1 



JJL 







fc = 


= 4 


,P = 0.8 


0.4 


- 




0.3 








0.2 








0.1 








1 . 



k = 2,p = 0.5 



0.4 
0.3 
0.2 - 
0.1 - 



J_L_i_ 



012345678 012345 0123456* 



FIGURA 4.4 Gráficas de la función de probabilidad binomial negativa 



118 Algunas distribuciones discreías de probabilidad 

P(X = x) = F NB (x; k, p) - F NB (x - l;k, p) 

= [\-FJLk-\\k + x,p)) - [ 1 - F B (k - 1; k + x - \,p)) 

= F B (k -l;k + x-l,p)- F B (k -l;k + x,p)\ (4.38) 

Para ilustrar el uso de (4.37) y (4.34), sea k = 2 y p = 0.5 en (4.34): 

p NB {x; 2, 0.5) = (x + 1)(0.5) 2 (0.5)\ x = 0, 1, 2, ... . 

La probabilidad de que X « 3 es 

P(X*¿3) = F„ s (3; 2, 0.5) = 1 - F B (l; 5, 0.5) = 0.8125; 

la probabilidad de que X = 2 es 

P(X = 2) = Fa(l; 3, 0.5) - F B (1; 4, 0.5) = 0.1875; 

y la probabilidad de que X > 1 es 

P(Z > 1) = P(X 5= 2) = 1 - F m V ; 2, 0.5) 

I / O; 4 1- = ' " [1 -W 3 ' - 5 )] 

-; >' =0.5. 

La aplicación primaria de la distribución binomial negativa es una alternativa 
adecuada para el modelo de Poisson cuando la frecuencia de ocurrencia no es cons- 
tante sobre el tiempo o el espacio. También se emplea de manera frecuente para mo- 
delar las estadísticas de accidentes, datos psicológicos, compras del consumidor y 
otras situaciones similares en donde la frecuencia de ocurrencia entre grupos o indi- 
viduos no se espera que sea la misma. Por ejemplo, las estadísticas de accidentes au- 
tomovilísticos indican de manera consistente que los conductores jóvenes tienen 
más accidentes que los de más edad, y que los hombres tienen un mayor número de 
accidentes que las mujeres. Desde este punto de vista no debe tomarse la distribución 
binomial negativa en términos de cuántos ensayos se necesitan para alcanzar un de- 
terminado número de éxitos. Más bien, debe considerarse como el número de 
ocurrencias en el tiempo o en el espacio cuando la frecuencia de éstas no es constan- 
te. Para una aplicación en particular, veáse la referencia [1]. 

Los momentos de una variable aleatoria binomial negativa pueden determinarse al 
obtener los momentos factoriales, como se hizo para las distribuciones binomial, de 
Poisson e hipergeométrica. También es posible obtener la media, la varianza, el coe- 
ficiente de asimetría y la curtosis relativa a partir de las expresiones dadas por (4.4), 
(4.6) y (4.14) respectivamente. Puede demostrarse que si estas expresiones reempla- 
zan los parámetros binomiales n, (1 - p) y p con las cantidades-/:, \/p y -(1 - p)/p, 
respectivamente, se obtendrán los momentos binomiales negativos deseados. De 
acuerdo con lo anterior, si A' es una variable aleatoria binomial negativa con función 



4.5 La distribución binomial negativa 119 



de probabilidad dada por (4.34): 



E(X) 


«1 - 
P 


P) 








Var(X) 


k(\ - 

~ P 2 

2 - 


P) 
- P 


\ 






«3 


[k{\ - 


P)\ 


/2> 


y 




,,C 2 - 


6p 


+ 


6) 



k(l - p) 



(4.39) 
(4.40) 
(4.41) 
(4.42) 



En la tabla 4.8 se proporciona la información más útil para la distribución bino- 
mial negativa. A partir de esta tabla son evidentes algunas propiedades básicas de tal 
distribución. La varianza es más grande que la media en forma permanente, así 
como la distribución presenta un sesgo positivo y es leptocúrtica puesto que a 4 
siempre es más grande que tres, pero a 4 —* 3 conforme k -* <*. 

Ejemplo 4.10 En un artículo de R. Pollard (véase la referencia [5]) se demuestra 
que el número de anotaciones de seis puntos por equipo en el fútbol colegial se des- 
cribe de manera apropiada mediante una distribución binomial negativa. La tabla 
4.9 contiene información muy semejante a la que aparece en la tabla 4.3. Para deter- 
minar de manera teórica la probabilidad de ocurrencia, es necesario tener estima- 
ciones de los valores de los parámetros ky p. Dado que la media y la varianza de una 
variable aleatoria binomial negativa están dadas por (4.39) y (4.40) respectivamente, 
se resuelve para k y p y se obtiene: 



E(X) 
Var{XY 



k = 



EVO 



Var(X) - E{X) 



TABLA 4.8 Propiedades básicas de la distribución binomial negativa 


: : 


Función de probabilidad 




Parámetros 


x = 0, 1,2, ... 


- pY 


k, k > (distribución de Pascal si 
k es un entero positivo) 

p, =s p « 1 


í í 
« ,1 


Media Varianza 




Coeficiente Curtosis 
de asimetría relativa 


■ 


k(\ - p) k(\ - p) 




2 - p (p 2 - 6p + 6) 


11 


P ' P 2 


[«1 - P)}" 2 k(í - p) 


»;!! 



120 Algunas distribuciones discretas de probabilidad 

TABLA 4.9 Distribución del número de anotaciones de seis puntos por equipo y por juego 
en el fútbol colegial, 1967 





Número 






Número 


Número de 


de veces 


Frecuencia 


Probabilidad 


esperado de 


anotaciones 


observadas 


relativa 


teórica 


ocurrencias 





272 


0.1174 


0.1205 


279 


1 


485 


0.2094 


0.2117 


490 


2 


537 


0.2319 


0.2197 


509 


3 


407 


0.1757 


0.1754 


406 


4 


258 


0.1114 


0.1190 


276 


5 


157 


0.0678 


0.0722 


167 


6 


101 


0.0436 


0.0404 


94 


7 


57 


0.0246 


0.0212 


49 


8 


23 


0.0099 


0.0106 


25 


9 


8 


0.0035 


0.0051 


12 


10 


5 


0.0022 


0.0023 


5 


11 + 


6 


0.0026 


0.0019 


4 


Totales 


2316 


1.0000 


1.0000 


2316 



El método con que se calculan estos parámetros* es la suposición de que las esti- 
maciones de E(X) y Var(X) son iguales a la media x y la varianza s 2 , muestral, mis- 
mas que tienen un valor de 2.58 y 3.79 respectivamente. De acuerdo con lo anterior, 
la estimación de/? resulta ser 0.6807 y la de k, 5.5012. Puesto que esta última no es un 
entero, se emplea la función de probabilidad dada por (4.35) para determinar las 
probabilidades teóricas. 

La diferencia aparente entre las distribuciones del número de anotaciones por 
equipo entre la NFL y el fútbol colegial se puede explicar en gran parte por la gran 
variabilidad que existe en la calidad de los oponentes en el fútbol colegial cuando 
éste se compara con la NFL. Como resultado, se espera que la frecuencia con la que se 
anotan seis puntos en el fútbol colegial sea más una función del oponente de lo que 
es en la NFL. De esta manera es como se sugiere la distribución binomial negativa. 

Mediante un empleo directo de la definición, la función generadora de momen- 
tos de la distribución binomial negativa se obtiene de la siguiente manera: 



Jt = •' 



E(e' x ) = 2 e"( k t X _/} Al ~ P Y 



k - 1 



- 2 ^^/Ki - pwr 



~o (* - w.xi 

p k + kp k [(\ - p)e') + 



* , ,„*„, „W! , k ít±Jl Ail _ py] 2 + ..., 



* Véase el capítulo ocho, en particular la sección 8.3.2 para la estimación de parámetros. 



pero ésta es la expansión binomial de 
generadora de momentos está dada por 



4.5 La distribución binomial negativa 121 
; por lo tanto, la función 



p' 



"*"> - u _ „ . pyr «•«> 

Con las distribuciones binomial, de Poisson, binomial negativa e hipergeométri- 
ca, se ha hecho un intento para proporcionar al lector distribuciones discretas de 
probabilidad que han demostrado ser modelos adecuados para muchos fenómenos 
interesantes y útiles de manera práctica. A pesar de que estas distribuciones son simi- 
lares entre sí, cada una de ellas posee características distintas que brindan al usuario 
la información necesaria para una selección apropiada. También debe notarse que si 
un fenómeno no presenta todas las propiedades de una distribución determinada es 
suficiente para excluirla como modelo de probabilidad adecuado para ese fenómeno 
aleatorio. 

Las distribuciones binomial, de Poisson y binomial negativa involucran ensayos 
de Bernoulli en el muestreo que se lleva a cabo con reemplazo. En la distribución bi- 
nomial el muestreo se lleva a cabo con un número fijo de ensayos que tienen una 
probabilidad de éxito o fracaso constante. En la distribución de Poisson el número 
de ensayos es de tal manera infinito que la ocurrencia o no de un evento es constante 
en el tiempo y en el espacio. En la distribución binomial negativa, el muestreo se 
continúa hasta observar un determinado número de éxitos y el número de ensayos 
puede ser infinito. Por lo tanto, esta distribución es una alternativa factible de la de 
Poisson cuando la frecuencia de ocurrencia no es constante en el tiempo y el espacio. 
En la distribución hipergeométrica los ensayos no son independientes puesto que el 
muestreo se lleva a cabo sin reemplazo. No sólo el tamaño de la muestra es fijo, sino 
que se supone que la población es finita y, muchas veces, relativamente pequeña. 



Referencias 

1. A. G. Arbous and J. E. Kerrich, Accident statistics and the concept of accident 
proneness, Biometrics 7 (1951), 340-432. 

2. N. L. Johnson and S. Kotz, Discrete distributions, Houghton Mifflin, Boston, 1969. 

3. N. L. Johnson and F. C. Leone, Statistics and experimental design, Vol. I, Wiley, 
New York, 1977. 

4. G. L. Lieberman and D. B. Owen, Tables of the hypergeometric probability distribution, 
Stanford Univ. Press, Stanford, Calif., 1961. 

5. R. Pollard, Collegiate football stores and the negative binomial distribution, J. Amer. 
Statistical Assoc, 68 (1973), 351-352. 

6. E. Williamson and M. H. Bretherton, Tables of the negative binomial probability 
distribution, Wiley, New York, 1963. 



122 Algunas distribuciones discretas de probabilidad 

Ejercicios 

4.1. Sea A" una variable aleatoria con distribución binomial y parámetros nyp. Mediante la 
función de probabilidad binomial, verificar que p(n — x; n, 1 - p) = p(x\ n, p). 

4.2. En una distribución binomial, sea X el número de éxitos obtenidos en diez ensayos don- 
de la probabilidad de éxito en cada uno es de 0.8. Con el resultado del problema ante- 
rior, demostrar que la probabilidad de lograr de manera exacta seis éxitos es igual a la 
probabilidad de tener cuatro fracasos. 

4.3. Mediante el empleo de la función de probabilidad binomial, verificar la siguiente fórmu- 
la de recursión: 

, ^ i \ (" ~ x)p 

p(*+l;n.p) = (x+1)(1 _ p) pCx.i..p). 

4.4. Sea X una variable aleatoria con distribución binomial y parámetros n = 8 y p = 0.4. 
Emplear la fórmula de recursión del problema anterior para obtener las probabilidades 
puntuales de los valores de X. Hacer una gráfica de la función de probabilidad. 

4.5. Sea A" una variable aleatoria distribuida binomialmente con n = 10 y p = 0.5. 

a) Determinar las probabilidades de que A - se encuentre dentro de una desviación están- 
dar de la media y a dos desviaciones estándares de la media. 

b) ¿Cómo cambiarían las respuestas de a) si n = 15 y p = 0.4? 

4.6. Supóngase que la probabilidad de tener una unidad defectuosa en una línea de ensamble 
es de 0.05. Si el número de unidades terminadas constituye un conjunto de ensayos inde- 
pendientes: 

a) ¿Cuál es la probabilidad de que entre 20 unidades dos se encuentren defectuosas? 

b) ¿Cuál es la probabilidad de que entre 20 unidades, dos como límite se encuentren de- 
fectuosas? 

c) ¿Cuál es la probabilidad de que por lo menos una se encuentre defectuosa? 

4.7. En una fábrica de circuitos electrónicos, se afirma que la proporción de unidades defec- 
tuosas de cierto componente que ésta produce, es del 5%. Un buen comprador de estos 
componentes revisa 15 unidades seleccionadas al azar y encuentra cuatro defectuosas. Si 
la compañía se encuentra en lo correcto y prevalecen las suposiciones para que la distri- 
bución binomial sea el modelo de probabilidad adecuado para esta situación, ¿cuál es 
la probabilidad de este hecho? Con base en el resultado anterior ¿puede concluirse que la 
compañía está equivocada? 

4.8. La probabilidad de que un satélite, después de colocarlo en órbita, funcione de manera 
adecuada es de 0.9. Supóngase que cinco de éstos se colocan en órbita y operan de ma- 
nera independiente: 

a) ¿Cuál es la probabilidad de que, por lo menos, el 80% funcione adecuadamente? 

b) Responder a a) si n = 10 

c) Responder a a) si n = 20 

d) ¿Son inesperados estos resultados? ¿Por qué? 

4.9. Con base en encuestas al consumidor se sabe que la preferencia de éste con respecto a 
dos marcas, A y B, de un producto dado, se encuentra muy pareja. Si la opción de 



Ejercicios 123 

compra entre estas marcas es independiente, ¿cuál es la probabilidad de que entre 25 
personas seleccionadas al azar, no mas de diez tengan preferencia por la marca A? 

4.10. Supóngase que un examen contiene 15 preguntas del tipo falso o verdadero. El examen 
se aprueba contestando correctamente por lo menos nueve preguntas. Si se lanza una 
moneda para decidir el valor de verdad de cada pregunta, ¿cuál es la probabilidad de 
aprobar el examen? 

4. 1 1 . Un vendedor de seguros sabe que la oportunidad de vender una póliza es mayor mientras 
más contactos realice con clientes potenciales. Si la probabilidad de que una persona 
compre una póliza de seguro después de la visita, es constante e igual a 0.25, y si el con- 
junto de visitas constituye un conjunto independiente de ensayos, ¿cuántos comprado- 
res potenciales debe visitar el vendedor para que la probabilidad de vender por lo menos 
una póliza sea de 0.80? 

4.12. El gerente de un restaurante que sólo da servicio mediante reservación sabe, por expe- 
riencia, que el 15% de las personas que reservan una mesa no asistirán. Si el restaurante 
acepta 25 reservaciones pero sólo dispone de 20 mesas, ¿cual es la probabilidad de que a 
todas las personas que asistan al restaurante se les asigne una mesa? 

4.13. Mediante la probabilidad de Poisson, demostrar la siguiente fórmula de recursión: 



p(x + 1; X) = 



(*+ 1) 



P(x; X). 



4.14. Sea A' una variable aleatoria de Poisson con parámetro X = 2. Emplear la fórmula del 
problema anterior para determinar las probabilidades puntuales de X - 0, 1, 2, 3, 4, 5, 
6, 7 y 8, y hágase una gráfica de la función de probabilidad. 

4.15. Para un volumen fijo, el número de células sanguíneas rojas es una variable aleatoria 
que se presenta con una frecuencia constante. Si el número promedio para un volumen 
dado es de nueve células para personas normales, determinar la probabilidad de que el 
número de células rojas para una persona se encuentra dentro de una desviación están- 
dar del valor promedio y a dos desviaciones estándar del promedio. 

4.16. El número de clientes que llega a un banco es una variable aleatoria de Poisson. Si el nú- 
mero promedio es de 120 por hora, ¿cuál es la probabilidad de que en un minuto lleguen 
por lo menos tres clientes? ¿Puede esperarse que la frecuencia de llegada de los clientes 
al banco sea constante en un día cualquiera? 

4.17. Supóngase que en un cruce transitado ocurren de manera aleatoria e independiente dos 
accidentes por semana. Determinar la probabilidad de que ocurra un accidente en una 
semana y de que ocurran tres, en la semana siguiente. 

4.18. Sea X una variable aleatoria binomial. Para n = 20, calcular las probabilidades pun- 
tuales binomiales y compararlas con las correspondientes probabilidades de Poisson 
parap = 0.5,0.3,0.1 y 0.01. 

4.19. Una compañía compra cantidades muy grandes de componentes electrónicos. La deci- 
sión para aceptar o rechazar un lote de componentes se toma con base en una muestra 
aleatoria de 100 unidades. Si el lote se rechaza al encontrar tres o más unidades defec- 
tuosas en la muestra, ¿cuál es la probabilidad de rechazar un lote si éste contiene un 1% 
de componentes defectuosos? ¿Cuál es la probabilidad de rechazar un lote que contenga 
un 8% de unidades defectuosas? 



124 Algunas distribuciones discretas de probabilidad 

4.20. El número de componentes que fallan antes de cumplir 100 horas de operación es una 
variable aleatoria de Poisson. Si el número promedio de estas es ocho: 1 

a) ¿Cuál es la probabilidad de que falle un componente en 25 horas? § 

b) ¿Cuál es la probabilidad de que fallen no más de dos componentes en 50 horas? § 

c) ¿Cuál es la probabilidad de que fallen por lo menos diez en 125 horas? 

4.21. Mediante estudios recientes se ha determinado que la probabilidad de morir por causa 
de cierta vacuna contra la gripe es de 0.00002. Si se administra la vacuna a 100 mil perso- 
nas y se supone que estas constituyen un conjunto independiente de ensayos, ¿cuál es la 
probabilidad de que mueran no más de dos personas a causa de la vacuna? 

4.22. Un fabricante asegura a una compañía que el porcentaje de unidades defectuosas es de 
sólo dos. La compañía revisa 50 unidades seleccionadas aleatoriamente y encuentra cin- 
co defectuosas. ¿Qué tan probable es este resultado si el porcentaje de unidades defec- 
tuosas es el que el fabricante asegura? 

4.23. El número de accidentes graves en una pla.ta Industrial es de diez por año, de manera 
tal que el gerente instituye un plan que considera efectivo para reducir el número de ac- 
cidentes en la planta. Un año después de ponerlo en marcha, sólo han ocurrido cuatro 
accidentes. ¿Qué probabilidad hay de cuatro o menos accidentes por año, si la frecuen- 
cia promedio aún es diez? Después de lo anterior, ¿puede concluirse que, luego de un 
año, el número de accidentes promedio ha disminuido? 

4.24. El Departamento de Protección del Ambiente ha adquirido 40 instrumentos de preci- 
sión para medir la contaminación del aire en distintas localidades. Se seleccionan aleato- 
riamente ocho instrumentos y se someten a una prueba para encontrar defectos. Si 
cuatro de los 40 instrumentos se encuentran defectuosos, ¿cuál es la probabilidad de que 
la muestra contenga no más de un instrumento defectuoso? 

4.25. Se sospecha que por causa de un error humano se han incluido en un embarque de 50 uni- 
dades, dos (o más) defectuosas. El fabricante admite el error y envía al cliente sólo 48 
unidades. Antes de recibir el embarque, el cliente selecciona aleatoriamente cinco uni- 
dades y encuentra una defectuosa. ¿Debe reclamar una indemnización al fabricante? 

4.26. Los jurados para una corte federal de distrito se seleccionan de manera aleatoria entre 
la lista de votantes del distrito. En un determinado mes se selecciona una lista de 25 can- 
didatos. Ésta contiene los nombres de 20 hombres y cinco mujeres. 

a) Si la lista de votantes se encuentra igualmente dividida por sexo, ¿cuál es la probabili- 
dad de tener una lista que contenga a 20 hombres y cinco mujeres? 

b) Supóngase que de esta lista se elige un jurado de doce personas, de las cuales sólo 
una es mujer. ¿Cuál es la probabilidad de este hecho, si los miembros del jurado se 
seleccionan de manera aleatoria? 

c) Si el lector fuera el abogado de la defensa, ¿que podría argumentar mediante el 
empleo de las respuestas de las partes a y bl 

4.27. Una compañía recibe un lote de 1 000 unidades. Para aceptarlo se seleccionan diez uni- 
dades de manera aleatoria, y se inspeccionan. Si ninguna se encuentra defectuosa, el 
lote se acepta; de otro modo, se rechaza. Si el lote contiene un 5% de unidades defec- 
tuosas: 

a) Determinar la probabilidad de aceptarlo mediante el empleo de la distribución hiper- 
geométrica. 



Ejercicios 125 

b) Aproximar la respuesta de la parte a mediante el empleo de la distribución binomial. 

c) Aproximar la respuesta de la parte b mediante el empleo de la distribución de Pois- 
son. 

4.28. En el ejercicio anterior, ¿cómo cambiarían las respuestas de las partes a, b y c si el tama- 
ño del lote fuera de 40 unidades? 

4.29. Considérese las funciones de probabilidad binomial y binomial negativa dadas por las 
expresiones 4.1 y 4.34, respectivamente. Demostrar que: 

k 
p SB (x\ k, p) = — — p B (k\ x + k, p). 
x + k 

4.30. Sea X una- variable aleatoria binomial negativa con parámetros k = 3 y p = 0.4. 
Emplee el resultado del problema anterior para calcular las probabilidades puntuales 
para los siguientes valores de A 1 : 0, 1, 2, 3, 4 y 5. 

4.31. Greenwood y Yule* dieron a conocer el número de accidentes ocurridos entre 414 ope- 
radores de maquinaria, en un periodo de tres meses consecutivos. En la tabla 4. 10 la pri- 
mera columna indica el número de accidentes sufridos por un mismo operador, y la 
segunda indica la frecuencia relativa para aquellos que habían sufrido la cantidad de ac- 
cidentes indicada en el lapso de tres meses. 



TABLA 4.10 


X 


Frecuencia 




relativa 





0.715 


1 


0.179 


2 


0.063 


3 


0.019 


4 


0.010 


5 


0.010 


6 


0.002 


7 


0.000 


8 


0.002 



Con el procedimiento del ejemplo 4.10, comparar las frecuencias relativas observadas 
con las correspondientes probabilidades si el número de accidentes es una variable alea- 
toria binomial negativa. 

4.32. Un contador recientemente graduado pretende realizar el examen CPA. Si el número de 
veces que se hace el examen constituye un conjunto de eventos independientes con una 
probabilidad de aprobar igual a 0.6, ¿cuál es la probabilidad de que no se necesiten más 
de cuatro intentos para aprobar el examen? ¿Son válidas las suposiciones de independen- 
cia y probabilidad constante? 



* Encuesta acerca de la distribución representativa de la frecuencia de múltiples eventos, con especial re- 
ferencia a la ocurrencia de múltiples ataques de enfermedades o accidentes repetidos, J . of the Royal Sta- 
tisiical Soc. 83 (1920), 255. 



126 Algunas distribuciones discretas de probabilidad 

4.33. En un departamento de control de calidad se inspeccionan las unidades terminadas que - 
provienen de una línea de ensamble. Se piensa que la proporción de unidades defec- ¿ 
tuosas es de 0.05. 

a) ¿Cuál es la probabilidad de que la vigésima unidad inspeccionada sea la segunda que 
se encuenre defectuosa? 

b) Supóngase que la décimo quinta unidad inspeccionada es la segunda que se encuen- 
tra defectuosa. ¿Cuál es la probabilidad de este hecho bajo condiciones determina- 
das? 

4.34. De las distribuciones binomial, Poisson, hipergeométrica y binomial negativa, ¿cuáles 
no consideraría si alguien le dijera, de una distribución en particular que: 

a) ¿La media es igual a la varianza? 

b) ¿La media es más grande que la varianza? 

c) ¿La media es menor que la varianza? 

d) El tercer momento, alrededor de la media, ¿es negativo? 

e) ¿El fenómeno aleatorio de interés constituye un grupo de ensayos independientes? 

f) ¿El muestreo se lleva a cabo con reemplazo? 

g) ¿El muestreo se lleva a cabo sin reemplazo? 



APÉNDICE 

Deducción de la función de probabilidad de Poisson 

Sea p(x; t) la probabilidad de tener, de manera exacta, X ocurrencias en un interva- 
lo /, y supóngase lo siguiente: 

1. En este intervalo, los eventos ocurren de manera independiente. 

2. La probabilidad de una sola ocurrencia, en un intervalo muy pequeño dt es vdt, 
en donde v es la frecuencia constante de ocurrencia y (y > 0). 

3. El intervalo dt es tan pequeño, que la probabilidad de tener más de una ocurren- 
cia en dt es despreciable. 

El evento que en el tiempo t + dt ha ocurrido exactamente x veces, puede llevarse a 
cabo de dos maneras diferentes y excluyentes: 

1 . Existen x ocurrencia por tiempo /, con probabilidad p(x; t) y ninguna endt, con 
probabilidad (1 - vdt). Dada la suposición de independencia, la probabilidad 
conjunta es p(x; t)(\ — vdt). 

2. Existen x - 1 ocurrencias por tiempo t, con probabilidad p(x - 1 ; t) y una du- 
rante dt, con probabilidad vdt. Otra vez, dada la suposición de independencia, la 
probabilidad conjunta es: p(x - 1; t)vdt. 

Esto es: 

p(x\ t + dt) = p(x; /)(1 - vdt) + p(x - I; t)vdt. 



Apéndice 127 

Después de multiplicar, transportar p(x; t) al primer miembro, y dividir por dt, se 
tiene: 



p(x; t + dt) - p{x; t) 
di 



= v[p(x - \;t) - p(x;t)]. 



Si se toma el límite conforme dt — * 0, por definición se tiene: 
dp(x; t) 



dt 



= v[p(x - l;r) - p(x;t)], 



(4.44) 



que es una ecuación diferencial lineal con respecto a t y una ecuación de diferencias 
finitas de primer orden, con respecto a x. Si x = 0, la ecuación (4.44) se convierte en 



dp(0; t) 
dt 



= v[p(-\;t)- p(0;t)] 



= -vp(0;t), 

dado que p( - 1 ;/) tiene que ser cero. La solución general de la ecuación diferencial 
lineal 



dp(0; t) 
dt 



= -vp(0;t) 



se obtiene mediante separación de variables e integración en ambos miembros, lo 
que da como resultado: 

ln[p(0; t)] = ln(c) - vt, 



p(0; /) = ce' 1 " 

Dado que la probabilidad de tener cero ocurrencias en un intervalo t = 0, debe ser 1, 
c = 1, y 



p(0;t) = e "'. 



Si x = 1, (4.44) se convierte en 

dp(l;t) _ 
dt 



v[p(0;t) - p(l;/)], 



dp(\;t) 
dt 



+ vp{\\ t) = ve 



(4.45) 



La ecuación (4.45) es una ecuación diferencial no homogénea con la condición ini- 
cial de que p(l; 0) = dado que la probabilidad de tener exactamente una 



128 Algunas distribuciones discretas de probabilidad 
ocurrencia en t = debe ser cero. La solución de (4.45) es 

pd;t) = (vt)e-" 

I 
De manera similar, para jc = 2 y p(2; 0) = 0, (4.44) se reduce a ¡ 

. dp{2; t) 2 _„, 

— — — + vp{2; t) = v l te ", 

cuya solución es 



P(2; t) = 



2! 



Al continuar este proceso puede deducirse que la probabilidad de tener exactamente 
x ocurrencias en / es 

pU; /) = (Vt) ' , jr = 0,1,2,... (4.46) 

x: 

siempre que p(x; 0) = 0. Si se sustituye A = vt en (4.46), el resultado es la fun- 
ción de probabilidad de Poisson. 



APÉNDICE 

Demostración del teorema 4.1 

Al multiplicar numerador y denominador por n* y sustituir n\/(n - r)! = n(n 
\){n - 2) ■■■ {n - x + 1), la función de probabilidad binomial es: 

p(.r; n, p) = — (/ip^l - p)" 

n x\ 



n(n - l)(n - 2) ••• (n - x + I) A 



** 


--Al - P Y~ X 

x\ 


-3- 


('-H^'-*" 


2 1 1 


'i •'-') 


ni ( 


V w 7 A 1 



I - - 

n 



.-iii. 

' "' (I - P)"- (4.47) 



Dado que: 

y por definición: 



(1 - p)' -r! 

(1 - pY = [(I - p)' 1 ^]"^ [(I - p)- u T K 



lím (1 + z) ,/z = e, 

r— o 



mediante el cambio de variable z = — p, se tiene 



Además, 



lím[(l - pV u T Á = e-\ 

p-0 






lim(l - pf = 1. 

p-»0 



Al sustituir en (4.47), 



j?U; n,p) = 



lím j?(x; n,p) = — — , jc = O, 1, 2, ... 



CAPITULO CINCO 



Algunas distribuciones 
continuas de probabilidad 



5.1 Introducción 

Estas distribuciones se emplearon en el estudio de fenómenos aleatorios en discipli- 
nas como la ingeniería y las ciencias aplicadas o bien los negocios y la economía. En 
este capítulo se desarrollará un método para determinar la distribución de probabili- 
dad de una función de variable aleatoria y se introducirán los conceptos básicos para 
la generación, por computadora, de números aleatorios. 

De manera específica se estudiarán los siguientes modelos de probabilidad: nor- 
mal, uniforme, beta, gama, de Weibull y exponencial negativa. La forma de abordar 
los temas será la misma que se empleó en el capítulo cuatro. Se discutirán las pro- 
piedades de cada modelo y se indicarán áreas de aplicación específica, con lo que se 
pretende proporcionar al lector una idea y comprensión suficiente para utilizar los 
modelos de manera apropiada. 



5.2 La distribución normal 

La distribución normal o Gausiana es indudablemente la más importante y la de ma- 
yor uso de todas las distribuciones continuas de probabilidad. Es la piedra angular 
en la aplicación de la inferencia estadística en el análisis de datos, puesto que las 
distribuciones de muchas estadísticas muéstrales tienden hacia la distribución nor- 
mal conforme crece el tamaño de la muestra. La apariencia gráfica de la distribución 
normal es una curva simétrica con forma de campana, que se extiende sin límite 
tanto en la dirección positiva como en la negativa. Un gran número de estudios indi- 
ca que la distribución normal proporciona una adecuada representación, por lo me- 
nos en una primera aproximación, de las distribuciones de una gran cantidad de va- 
riables físicas. Algunos ejemplos específicos incluyen datos meteorológicos tales 
como la temperatura y la precipitación pruvial, mediciones efectuadas en organis- 
mos vivos, calificaciones en pruebas de actitud, mediciones físicas de partes manu- 



5.2 La distribución normal 131 



facturadas, errores de instrumentación y otras desviaciones de las normas estableci- 
das, etc. Sin embargo, debe tenerse mucho cuidado al suponer para una situación 
dada un modelo de probabilidad normal sin previa comprobación. Si bien es cierto 
que la distribución normal es la que tiene un mayor uso, es también de la que más se 
abusa. Quizá esto se deba a la mala interpretación de la palabra "normal", especial- 
mente si se aplica su significado literal de "patrón o estándar aceptado". Suponer de 
manera errónea una distribución normal puede llevar a errores muy serios. Es po- 
sible que una distribución normal proporcione de manera razonable una buena 
aproximación alrededor de la media de una variable aleatoria; sin embargo, puede 
resultar para valores extremos que se encuentren en cualquier dirección. Por 
ejemplo, si se diseña cierto material para resistir una cantidad dada de presión, que 
se supone se encuentra distribuida normalmente alrededor de un valor promedio, y 
el diseño se hace con base en esta suposición, el material puede verse seriamente da- 
ñado al aplicársele una presión muy elevada. 

En la definición 5. 1 se proporciona la función de densidad de probabilidad de la 
distribución normal, la cual fue descubierta por DeMoivre en 1733 como una forma 
límite de la función de probabilidad binomial; después la estudió Laplace. También 
se conoce como distribución Gausiana porque Gauss la citó en un artículo que 
publicó en 1809. Durante el siglo xix se empleó de manera extensa por científicos 
que habían notado que los errores, al llevar a cabo mediciones físicas, frecuentemen- 
te seguían un patrón que sugería la distribución normal. 



'1 



Definición 5.1 Se dice que una variable aleatoria X se encuentra normalmente 
distribuida si su función de densidad de probabilidad está dada por 



f(x; ¡x, cr) = 



1 



\/2tt cr 



exp 



x - ¡x 



— oc < r < oc 

(5 1) 



Los parámetros de la distribución normal son ¡x y o- y además determinan de 
manera completa la función de densidad de probabilidad. Como se verá posterior- 
mente, estos parámetros son la media y la desviación estándar de X, respectivamen- 
te. En la figura 5.1 se proporcionan varias gráficas de (5.1) para distintos valores de 
ti a cr fijo y viceversa. 

Es obvio que para cualquier par de valores fx y cr, (5. 1) es simétrica y tiene forma 
de campana. Si se obtienen las dos primeras derivadas de /(.v: /x, cr) con respecto a 
x y se igualan a cero, se tiene que el valor máximo de /(.r, /x, cr) ocurre cuando x = 
M, y los valores .t = /x ± cr son las abcisas de los dos puntos de inflexión de la 
curva. En un apéndice al final de este capítulo se proporciona la demostración de 
que (5.1) es una función de densidad de probabilidad. 

La media de una variable aleatoria distribuida normalmente se encuentra defini- 
da por: 



E(X) 



\Z2n cr J - 



.vexp[-(.v - /x) : /2cr : ]í/.v. 



(5.2) 



■I 



132 Algunas distribuciones continuas de probabilidad 




M = -l M=0 n= 1 



a = 0.71 




M = 



FIGURA 5.1 Gráficas de la función de densidad normal para diferentes valores de m y c 
Se pretende demostrar que E(X) = fi. Supóngase que a (5.2) se suma y se resta 

exp[-(.r - fi) 2 /2a 2 ]dx. 



2tt a J ~ x 



V* 
La identidad se mantiene, pero después de reacomodar términos se tiene 



E(X) = 



277 O" J x 

2 77 O" ^ " * 



v - / u)exp[-(.v - fj.) 2 /2a 2 ]dx 



(x - M )V2o- 2 ]</.v 



V277: 



/u)exp[-(.v - ix) 2 /2cr 2 ]dx + (i. 



(5.3) 



5.2 La distribución normal 133 

dado que el valor de la segunda integral es uno. Al efectuar un cambio de variable de 
integración en (5.3) de manera tal que y = (x - fi.)/cr, x = a y + /x, y dx = <r 
dy, se tiene: 



E{X) = -4=/_ x vexp(-y 2 /2)Jy + /x 



V2tt- 
= ^=exp(-y 2 /2) +M = M- (5.4) 

V27T 

El lector recordará de sus cursos de cálculo que la última integral es cero porque 
el integrando es una función impar* y la integración se lleva a cabo sobre un interva- 
lo simérico alrededor de cero. 

Una distribución normal es simétrica alrededor de su media m- Si el valor máxi- 
mo de la función de denuda i de probabilidad normal ocurre cuando x = ¿i, ¡x es la 
media, la mediana y la moda de cualquier variable aleatoria distribuida normalmente. 

Para encontrar los demás momentos, se determinará la función generadora de 
momentos. Por definición: 

m x -¿t) = Eíe"*-»] = -¡L- f exp[fU - /i)lcxp[ - (jt - fi) 2 /2o* ]dx 

\J2tt o- j x 

• = vh /-- exp { - h l(x - ^ - 2(r2t(x - ^H 

Se completa el cuadrado en el interior del paréntesis rectangular y se tiene: 
(jc - m) 2 ~ 2cr 2 t(x - n) = (x - (i) 2 - 2a- 2 t(x - fi) + <r 4 t 2 - <r*t 2 

= (x - n - cr 2 í) 2 ~ o- 4 / 2 



mx-J,t) = -i- f exp(o- 2 / 2 /2)exp{-tx - (m + a 2 1)} 2 /2<r 2 }dx 
' 2tt o- j - x 



y: 

m., (ñ = _ 
y/2i 

= exp(o- 2 / 2 /2) • r - exp{-[x - (/x + <r 2 t)] 2 /2o- 2 }dx 

\j2ti a } - x 

= exp(o- 2 / 2 /2). (5.5) 

dado que el integrando junto con el factor \/\¡2n o- es una función de densidad de 
probabilidad normal con parámetros /i. + a 2 t y o-. 
Al desarrollar (5.5) en serie de potencias se tiene: 

* Se dice que una función f(x) es impar si f( - x ) = -f(x). Entonces /"_ „/(.r)í/.r = 0. Se dice que una 
función f(x) es par si /( - jt) = JXx). Entonces f"- a f(x)dx = 2 /;;/(.v)í/.v. 



134 Algunas distribuciones continuas de probabilidad 



Cuando las potencias impares de / no se encuentran presentes, todos los momentos 
centrales de X de orden impar son cero, de esta forma se asegura la simetría de la 
curva. 

La segunda derivada de m x - lí (t) evaluada en / = es la varianza y está dada 
por: 



Var(X) = d -^» 
dt 



12/V 






+ 



30/ V 6 
8-3! 



+ 



= o- 2 ; (5.6) 



/ = 



de esta manera la desviación estándar es o-. De manera similar, la cuarta derivada de 
m X -,Xt) evaluada en t = es el cuarto momento central, el cual es: 



d*mx-M) 
^ = ~d7~ 



= 3cr 4 + 



4 360/ V 6 



8-3! 



+ 



= 3c/ 



(5.7) 



/=0 



De acuerdo con lo anterior, para cualquier distribución normal el coeficiente de 
asimetría es a^X) = 0, mientras que la curtosis relativa es a¿X) = 3er 4 /o- 4 = 3. 
Para momentos alrededor del cero, puede determinarse la función generadora de 
momentos de X mediante el empleo directo de la función generadora de momentos 
centrales (o viceversa). Dado que 

%-,(') = Ele'"-*] 

= exp(-/x/)E[exp(/Z)] 
= exp(- /j.t)m x (t), 
para una distribución normal 

exp( - fjit)m x (t) — exp(o- 2 / 2 /2) 

y 

m x (í) = expí /xí + ^— - I . (5.8) 



La probabilidad de que una variable aleatoria normalmente distribuida X sea 
menor o igual a un valor específico, x está dada por la función de distribución acu- 
mulativa 



P(X < x) = FU- 



1 f 
fi, a-) = — 

\/?TT IT J ~ 



V27T, 



exp|-(í - n)-¡2a']dt. 



(5.9) 



La integral en (5.9) no puede evaluarse en forma cerrada; sin embargo, se puede ta- 
bular F(x\ fi, a) como una función de m y a, lo que necesitaría una tabla para 
cada par de valores. Como existe un número infinito de valores de m y <r, esta tarea 
es virtualmente imposible. Afortunadamente, lo anterior puede simplificarse me- 
diante el empleo de la siguiente transformación: sea Z una variable aleatoria defini- 
da por la siguiente relación: 



Z=(X- ¡i)/*. 



5.2 La distribución normal 135 



(5.10) 



en donde nyff son la media y la desviación estándar de X, respectivamente. De 
acuerdo con lo anterior, Z* es una variable aleatoria estandarizada con media cero y 
desviación estándar uno, de acuerdo con lo que se discutió en el capítulo tres. 
Si la transformación (5.10) se sustituye en (5.9), entonces: 



P'X < x) = P[Z < (x - fji)/cr] = —L- i 

\n-TT rr J- 



íx-fi)/rr 

\fhra- 



\/2¿ 



exp(-z 2 /2)(crdz) 

x. 

J ^ exp(-z 2 /2)dz. (5.11) 



El integrando en (5.11) junto con el factor \/\¡2tr es la función de densidad de 
probabilidad de la variable aleatoria normal estandarizada Z. Esto es, si X se en- 
cuentra normalmente distribuida con media fj. y desviación estándar cr, entonces 
Z = (X - fi)/a también se encuentra normalmente distribuida con media cero y 
desviación estándar uno. Así, para z = (x - ¿¿)/cr, P(X < x) = P(Z £z) y 



F x (x; fi, cr) = F z (z; 0, 1), 



(5.12) 



donde F¿{z; 0, 1) es la función de distribución acumulativa de la función de pro- 
babilidad normal estandarizada. En la figura 5.2 se proporciona la gráfica de la 
función de distribución para la variable aleatoria normal estandarizada. 

* Se empleará Z para denotar una variable aleatoria normal estandarizada. 







FIGURA 5.2 Función de distribución acumulativa de la normal estándar 



136 Algunas distribuciones continuas de probabilidad | 



La función F z (z; O, 1) se encuentra tabulada, de manera extensa, y se da en la 
tabla D del apéndice. Para cualquier valor específico de z, el correspondiente valor 
en la tabla es la probabilidad de que la variable aleatoria normal estándar Z sea me- 
nor o igual a z; esto es, 

P(Z < z) = F z (z; 0, 1) = -¿= í exp( - t 2 /2)dt. (5.13) 

En este momento es conveniente introducir la notación X ~ N(fi, cr) para denotar 
que la variable X se encuentra distribuida normalmente con media ¡x y desviación estándar 
cr. En lo que sigue se examinará cómo puede determinarse la probabilidad de que un 
valor de X se encuentre entre a y b, si X ~ N(fi, cr) . Por definición: 

1 f* 
P(a^X^b) = .— exp[-(jc - i¿) 2 /2cr 2 ]dx, 

\J2lf O" Ja 

pero, mediante el empleo de (5.3) se tiene: 

a — u, „ b — u, 
— - <Z< 

cr cr 

r(h-n)/<r 



P(a^X^b) = P 
1 



exp(-z 2 /2)dz 

J(a-ii)/<r 



\2lT Jb¡-l±)/<T 

= F z (^;0,l)-F z ^;0,l|. (5.14) 

En otras palabras, la probabilidad de que A' esté entre a y b es, de manera exacta, la 
misma probabilidad de que Z se encuentre entre {a - ¡x)/cr y (b - ¿O/o-, en don- 
de Z es N(0, 1). En la figura 5.3 se ilustra esta correspondencia de probabilidades. 
Se ilustrará el empleo de la tabla D mediante los siguientes ejemplos. 

Ejemplo 5.1 Si X es N((i, cr), ¿cuáles son las probabilidades de que el valor de X 
se encuentre a una, dos y tres veces la desviación estándar de la media? 

pí <r v <r _■_ * „/ m - o - - M ^ 7 ^ M + o" ~ M 
A^/u. — cr<XS(i + cr) = P[ < Z :£ 

\ O" O" 

= /°(-l <Z< 1) 
= F z (I;0, I) - />(-!;<>. I) 
= 0.6826. 
/°(/l¿- 2o-<Z<m + 2o-) = f(-2<Z< 2) 

= f z (2; 0, 1) - F z ( -2; 0, I) = 0.9544. 
/°(/j. - 3o- < Z < /x + 3er) = />( - 3 < Z < 3) 

= F¿(3;0, I) - F z (-3;0, 1) = 0.9974. 



i 



5.2 La distribución normal 137 



/(*) 




a-n 



b-¡i 



FIGURA 5.3 Correspondencia entre las probabilidades de X y de Z 



Así, para cualquier variable aleatoria normal las probabilidades "una sigma", "dos 
sigma" y "tres sigma" son 0.6826, 0.9544 y 0.9974 respectivamente. Este resultado 
indica que para la distribución normal existe una gran concentración de valores alre- 
dedor de la media. 

Ejemplo 5.2 Sea X una variable aleatoria que representa la inteligencia medida por 
medio de pruebas CI. Si A' es /v*(100, 10), obtener las probabilidades de que A" sea 
mayor que 100, menor que 85, a lo más 1 12, por lo menos 108, más grande que 90, y 
entre 95 y 120. 

Debe notarse que al resolver problemas de esta clase, el lector puede encontrar de 
gran ayuda graficar las correspondientes áreas bajo las curvas de densidad normal, 
como se ilustra en la figura 5.3. Dado que la distribución de probabilidad de A" es si- 
métrica alrededor de su media, la probabilidad de que X sea mayor que este valor es, 
por definición, 0.5. Las otras probabilidades se obtienen de la siguiente forma: 



P(X < 85) = pIz < 85 10 ° ) = P{Z< - 1.5) 

= /v(-I.5;0, 1) = 0.0668. 
P(X < 112) = P(Z< 1.2) = ^(1.2:0, 1) = 0.8849. 



138 Algunas distribuciones continuas de probabilidad 

P(jr> 108) = P(Z>0.8) = I - F z (0.8;0, 1) = 0.2119. 
P(X>90) = P(Z> -1) = 1 - F 2 (-1;0, 1) = 0.8413. 
P(95<A-< 120) = P(-0.5<Z<2) = F z (2;0, 1) - F z (-0.5;0, I) = 0.6687. 



Ejemplo 5.3 Supóngase que la demanda mensual de cierto producto se encuentra 
aproximada por una variable aleatoria normal con media de 200 y desviación están- 
dar igual a 40 unidades. ¿Qué tan grande debe ser el inventario disponible a principio 
de un mes para que la probabilidad de que la existencia se agote no sea mayor de 
0.05? 

Sea X la demanda mensual, entonces X es N(200, 40). Lo que se desea obtener 
es el valor del cuantil x 95 para el nivel de inventario a principio del mes, de manera 
tal que la probabilidad de que la demanda exceda a x 095 (existencias agotada) no sea 
mayor de 0.05. Esto es: 

P(X > jc 095 ) = 0.05 

o 

; P(X < *„.«) = 0.95. 

De lo anterior se sigue que: 

P[Z < (;c . 95 - 200)/40] = 0.95 

o 

P(Z<z 095 ) = F z (z .«;0, 1) = 0.95, 

donde z 95 = (x 95 - 200)/40 es el valor cuantil correspondiente a la variable aleato- 
ria normal estándar. Para obtener z .95 de la tabla D, primero se busca la probabili- 
dad más cercana a 0.95. Una vez que se encuentra este valor, se toman los corres- 
pondientes valores del renglón y la columna y se interpola para encontrar el valor 
deseado de Zo.95- Por ejemplo, Z0.95 tiene un valor aproximado de 1.645 y dado que 
Z0.95 = U0.95 ~~ 200)/40, x 095 tiene un valor de 265.8. Esto significa que el inventario 
a principio de cada mes no debe ser menor de 266 unidades para que la probabilidad 
de agotar las existencias no sea mayor de 0.05. 

Ejemplo 5.4 Supóngase que el diámetro externo de cierto tipo de cojinetes se en- 
cuentra, de manera aproximada, distribuido normalmente con media igual a 3.5 cm 
y desviación estándar igual a 0.02 cm. Si el diámetro de estos cojinetes no debe ser 
menor de 3.47 cm ni mayor de 3.53 cm, ¿cuál es el porcentaje de cojinetes, durante 
el proceso de su manufactura, que debe desecharse? 

Sea A' el diámetro del cojinete, en donde X es N(3.5, 0.02). La probabilidad de 
que el diámetro se encuentre entre 3.47 cm y 3.53 es: 



P(3.47<*<3.53) 



-( 



3.47 - 3.5 



5.2 La distribución normal 139 



3.53 - 3.5 



0.02 



0.02 

= F(-1.5<Z< 1.5) 

= F Z (1.5;0, 1)-F Z (-1.5;0, 1) 

= 0.8664. 

Dado que el 86.64% de los cojinetes cumplen con las especificaciones determinadas, 
se deduce que 1 - 0.8664 = 0. 1336, o, en otras palabras, debe desecharse el 13.36% 
de la producción. 

En el ejemplo 3.1 1 se determinó que para la distribución normal estándar los valo- 
res del primero y tercer cuantil son, de manera aproximada, iguales a -0.675 y 0.675 
mientras que los correspondientes a los deciles primero y noveno son alrededor de 
-1.28 y 1 . 28 respectivamente . De (5 . 1 0) se sigue que «i A' es N(fi , o-) , los valores de los 
cuantiles primero y tercero de X son jc 02 5 = — 0.675o- + /x y x 075 = 0.675<r + n- 
De esta manera el recorrido i ntercuantil es Jt 075 - jc 02 5 = 1.35o-. De manera simi- 
lar, los valores de los deciles primero y noveno son: jc oio = -1.28o + ¡x y 
X0.90 = 1.28o- + fi, y el recorrido interdecil está dado por jt 090 - jc , = 2.56o-. 
Del ejemplo 3.11, se puede concluir que si X ~ N(fi, o), la desviación media de X es 

E\X - fi\ = 0.7979o. (5.15) 

La tabla 5.1 contiene las propiedades básicas de la distribución normal. 

Ejemplo 5.5 La primera columna de la tabla 5.2 contiene los intervalos de respues- 
tas correctas para la prueba de matemáticas (SAT); la segunda, el correspondiente 
número de calificaciones observadas para el periodo 1979-1980, tal y como fueron 
dadas a conocer en el College BoardATP Summary Report; la tercera columna, las 
frecuencias relativas, las restantes, información con respecto a si las calificaciones 
para la prueba SAT obtenidas por los hombres estaban distribuidas normalmente 
con media 491* y desviación estándar igual a 120*. 

* Estos datos se proporcionan en el College Board ATP Summary Report, 1979-1980. 
TABLA 5.1 Propiedades básicas de la distribución normal 



Función de densidad de probabilidad 



Parámetros 



f(x; /í, a) = — exp 
\/2tt a 




fl, -os < fi<oc 

a, cr>0 



Desviación Recorrido Recorrido Coeficiente Curtosis 
Media Varianza media ¡ntercuantil interdecil de asimetría relativa 



M 



<T 



0.7979o 



1.35o 



2.56o 



O 



140 Algunas distribuciones continuas de probabilidad 

TABLA 5.2 Calificaciones obtenidas en la prueba de matemáticas SAT por los estudiantes 
del tercer ano de preparatoria en el ciclo 1979-1980 



Número de 


Intervalo 






respuestas Número de Frecuencia 


normal 


Probabilidad 


Número 


correctas exámenes relativa 


estándar 


del intervalo 


esperado 



(200-249) 


3 423 


0.0072 


(-2.425- -2.01) 


0.0146 


6 981.62 


(250-299) 


18 434 


0.0385 


(-2.01- -1.59) 


0.0337 


16 115.10 


(300-349) 


39 913 


0.0835 


(-1.59- -1.18) 


0.0631 


30 173.98 


(350-399) 


51 603 


0.1079 


(-1.18- -0.76) 


0.1046 


50 018.99 


(400-449) 


61 691 


0.1290 


(-0.76- -0.34) 


0.1433 


68 525.06 


(450-499) 


72 186 


0.1510 


(-0.34-0.075) 


0.1630 


77 945.46 


(500-549) 


72 804 


0.1522 


(0.075-0.49) 


0.1580 


75 554.49 


(550-599) 


58 304 


0.1219 


(0.49-0.91) 


0.1307 


62 499.83 


(600-649) 


46910 


0.0981 


(0.91-1.325) 


0.0888 


42 463.54 


(650-699) 


30 265 


0.0633 


(1.325-1.74) 


0.0517 


24 722.58 


(700-749) 


16 246 


0.0340 


(1.74-2.16) 


0.0255 


12 193.92 


(750-800) 


6 ',14 


0.0134 


(2.16-2.575) 


0.0104 


4 973.21 


Totales 


478 193 


1.0000 




0.9874 


472 167.78 



Mientras que, de manera aparente, existe una similitud entre las frecuencias teóricas 
y las observadas, queda aún por contestar la pregunta acerca de cuándo puede rechazar- 
se o no (véase Cap. 10) la hipótesis de que las calificaciones de la prueba SAT se distri- 
buyeron normalmente con media 491 desviación estándar igual a 120. Como se men- 
cionó, siempre es importante verificar lo que ocurre en los extremos de la distribución 
observada. Por ejemplo, se sabe que para la prueba SAT es imposible obtener califica- 
ciones para los eventos X < 200 y X > 800. Sin embargo, si X ~ N(491), las corres- 
pondientes probabilidades son 120), P(X < 200) = 0.0075 y P(X > 800) = 0.005. 
El siguiente ejemplo debe ilustrar de manera más clara la falta de concordancia en 
los extremos, entre las distribuciones observadas y teórica. 






Ejemplo 5.6 El número de unidades de un cierto producto que un comerciante ven- 
de al día varía de manera aleatoria con cambios muy pequeños que se deben a la 
temporada o al día de la semana. Con base en información anterior, se cree que la de- 
manda diaria de este producto es una variable aleatoria normal con media y des- 
viación estándar iguales a 100 y 12 unidades, respectivamente. Para comprobar su 
grado de creencia, el vendedor anota la demanda diaria durante los últimos 102 días 
y la agrupa como se muestra en la tabla 5.3. Comparar las frecuencias relativas que 
se observaron con las frecuencias teóricas al suponer una distribución normal con 
media 100 y desviación estándar 12. 

Como se ilustra en la figura 5.4, las frecuencias relativas que se observan en la 
demanda diaria sugieren una curva en forma de campana. Sin embargo, la tabla 5.4 
en que se comparan las frecuencias relativas teórica y observada, muestra una 
discrepancia muy grande en los extremos a pesar de que existe una buena concordan- 
cia alrededor de la media. Suponer una distribución normal para este tipo de si- 



5.2 La distribución normal 141 



TABLA 5.3 Demanda diaria de un producto 



Demanda diaria 



Frecuencia 



(55-64) 

(65-74) 

(75-84) 

(85-94) 

(95-104) 

(105-114) 

(115-124) 

(125-134) 

(135-144) 



6 

4 

6 

20 

32 

18 

6 

6 

4 



tuación puede llevar a errores muy grandes cuando es necesario tener información 
sobre los extremos. 

Recuérdese que la distribución binomial es una forma límite de la distribución de 
Poisson cuando n es grande y p pequeño. Se desea demostrar que la distribución 
normal es una forma límite de ¡a binomial cuando n es grande yp no tiene un valor 
cercano a cero o a uno. El siguiente teorema, que se conoce como teorema del límite 
de DeMoivre-Laplace, asegura una aproximación adecuada mediante la distribución 
normal de las probabilidades binomiales si n es suficientemente grande. 



Teorema 5.1 Sea X una variable aleatoria binomial con media np y desviación es- 
tándar V«P(1 ~ />)• La distribución de la variable aleatoria tiende a la normal 



Y = 



np 



y/np(l - p) 



(5.16) 





0.3 






























13 
> 

a 


0.2 
0.1 




















c 
<u 

3 
O 

<u 
U. 


















)i 


















~ 1 



55 65 75 85 95 105 115 125 135 145 
Demanda diaria (unidades) 



FIGURA 5.4 Frecuencias relativas que se observan para la demanda diaria de un producto 



142 Algunas distribuciones continuas de probabilidad 



estándar conforme el número de ensayos independientes «—*«. Se proporciona un 
desarrollo de la prueba en un apéndice al final de este capítulo. 

La esencia del teorema 5.1 es que si A" es una variable aleatoria binomial, para 
la que el número de ensayos independientes es suficientemente grande, se dice que 
X posee una distribución normal aproximada con media np y desviación estándar 
\/np(\~ p). De hecho, la aproximación es adecuada tanto como np > 5 cuando 
p =£ 1/2, o cuando n{\ - p) > 5 parap > 1/2. Estoes, 



Pía ^ X B < b) = P 



np 



vVd ~ p) 



Z N 



np 



y/np(\ - p) 



(5.17) 



en donde Z N es N(0.l). 

La aproximación dada por (5.17) puede mejorarse si se turna en cuenta que lo 
que se desea es aproximar probabilidades para una variable aleatoria discreta a par- 
tir del intervalo de probabilidades de una variable aleatoria continua. Por ejemplo, 
se desea determinar la probabilidad de que X tome un valor igual a x. Se sabe que 
para cualquier valor específico x de una variable aleatoria binomial, la probabilidad 
puntual es distinta de cero. Sin embargo, si se emple a la aproximación normal dada 
por el teorema 5.1, P[Z = (x - np)/\Jnp(\ - p)] = 0. En lugar de emplear la 
expresión anterior, se usará la aproximación normal para P(X = x) que determina 
la probabilidad de un intervalo de longitud uno (igual al incremento de la variable 
aleatoria binomial), de manera que el punto medio del intervalo sea igual al valor x. 
Por lo tanto, 



P(X B = x)~P 



x — np 



1/2 



\Jnp(\ - p) 



=£Zv 



x — np + 1/2 
Vnpd - p) 



Como resultado, la expresión (5.17) puede modificarse de la siguiente forma 

- np - 0.5 b - np + 0.5 



P(a <¿X B <íb)**P 



V«Pd - P) 



y/np(l - p) 



(5.18) 



TABLA 5.4 Frecuencias relativas observada y teórica para la demanda diaria de un producto 



Demanda diaria 



Frecuencia 
relativa 



Intervalo normal 
estándar 



Probabilidad 
del intervalo 



(55-64) 


0.0588 


-3.75- -2.92) 


0.0017 


(65-74) 


0.0392 


-2.92- -2.08) 


0.0170 


(75-84) 


0.0588 


-2.08- -1.25) 


0.0868 


(85-94) 


0.1961 


- 1.25- -0.42) 


0.2316 


(95-104) 


0.3137 


-0.42-0.42) 


0.3256 


(105-114) 


0.1765 


(0.42-1.25) 


0.2316 


(115-124) 


0.0588 


(1.25-2.08) 


0.0868 


(125-134) 


0.0588 


(2.08-2.92) 


0.0170 


(135-144) 


0.0392 


(2.92-3.75) 


0.0017 


Totales 


0.9999 




0.9998 



5.3 La distribución uniforme 143 

Ejemplo 5. 7 Una organización política planea llevar a cabo una encuesta para detec- 
tar la preferencia de los votantes con respecto a los candidatos A y B que ocuparán un 
puesto en la administración pública. Supóngase que toma una muestra aleatoria de 
mil ciudadanos. ¿Cuál es la probabilidad de que 550 o más de los votantes indiquen 
una preferencia por el candidato A si la población, con respecto a los candidatos, se 
encuentra igualmente dividida? 



Sea X la variable aleatoria que representa el número de ciudadanos que tienen 
preferencia por el candidato A. La muestra aleatoria de mil votantes puede pensarse 
como un conjunto de ensayos independientes con una probabilidad de éxito, en cada 
ensayo, igual a 0.5 (candidato A), dado que, por hipótesis, la población de votantes 
se encuentra igualmente dividida entre los candidatos. De esta forma, Xes una v a- 
riable aleatoria binomial con media np = 500 y desviación estándar y/np(\ - p) = 
15.81. La probabilidad de que X > 550 se puede aproximar, de manera adecuada, 
mediante ~! empleo de la distribución normal dado que n es suficientemente grande: 
grande: 



P(X > 550) - P[Z N > (549.5 
~P(Z N > 3.13) 
= 0.0009. 



500)/15.81] 






Como la probabilidad de tal hecho es muy pequeña, si p es igual a 0.5 puede con- 
cluirse que A será el ganador en la encuesta, ya que 550 o más personas indicarán una 
preferencia por él. 



5.3 La distribución uniforme 

Supóngase que ocurre un evento en que una variable aleatoria toma valores de un in- 
tervalo finito, de manera que éstos se encuentran distribuidos igualmente sobre el 
intervalo. Esto es, la probabilidad de que la variable aleatoria tome un valor en cada 
subintervalo de igual longitud es la misma. Se dice entonces que la variable aleatoria 
se encuentra distribuida uniformemente sobre el intervalo. 

Definición 5.2 Se dice que una variable aleatoria A" está distribuida uniformemente 
sobre el intervalo (a, b) si su función de densidad de probabilidad está dada por: 



f(x;a, b) = 



1/(6 - a) 




a < .v 



b, 



para cualquier otro valor 



(5.19) 



La función de densidad de probabilidad de una distribución uniforme es cons- 
tante en el intervalo (a, b), como se ilustra en la figura 5.5. Por esto, tal distribución 
también se conoce como distribución "rectangular". 



144 Algunas distribuciones continuas de probabilidad 



/(*) 



1/(6 -a) 



FIGURA 5.5 Gráfica de la función de densidad de probabilidad uniforme 



La función de distribución acumulativa se determina de manera fácil y está dada 



por 



P(Xs x ) = F(x;a,b) = (b 



Ja 



dt 



x < a, 
(x - a)/(b -a) a^x^b, (5.20) 

1 x>b. 

Se sigue entonces que, para cualquier subintervalo (a¡, b t ) interior a (a, b): 

/»(«,£*< 6,) = F(br,a,b) - F{a x ;a,b) 

= (b, - a,)/(b - a). (5.21) 

Este resultado ilustra que la probabilidad de que X tome valores del subintervalo 
(a t , ¿, ) es 1/(6 - á) por la longitud del subintervalo y, de esta forma, igual a la proba- 
bilidad de que A' tome un valor en cualquier otro subintervalo de la misma longitud. 
La distribución uniforme proporciona una representación adecuada para redon- 
dear las diferencias que surgen al medir cantidades físicas entre los valores observados 
y los reales. Por ejemplo, si el peso de un individuo se redondea al kilogramo 
más cercano, entonces la diferencia entre éste y el peso verdadero será algún valor 
entre -0.5 y 0.5 kg. Es común que el error de redondeo se encuentra distribuido uni- 
formemente en el intervalo (-0.5, 0.5). Otro uso de la distribución uniforme es pro- 
porcionar una aproximación clara sobre un intervalo muy pequeño cuya distribu- 
ción es distinta a la uniforme. 

Ejemplo 5. 8 Con respecto al ejemplo 1 . 1 , si se supone que las cuotas se encuentran 
distribuidas de manera uniforme en el intervalo ($81 .5-51 1 1 .5), entonces la función 



5.3 La distribución uniforme 145 

de densidad de probabilidad se determina por: 

f(x; 81.5, 111.5) = 1/30, 81.5 < x < 111.5. 

Se sigue de (5.21) que la probabilidad de que una cuota se encuentre en un subin- 
tervalo de longitud $5 (la amplitud de clase en el ejemplo 1 . 1) es 5/30. En la tabla 5.5 
se proporciona una comparación entre las frecuencias relativas dadas en la tabla 1 . 1 
y las correspondientes probabilidades teóricas, con base en la distribución uniforme. 
Como puede observarse, la concordancia entre las frecuencias teóricas y observadas 
es aparente. 

£1 valor esperado de una variable aleatoria distribuida de manera uniforme es 



E(X) = (b 



Ja 



xdx 



= (a + b)/2. 



(5.22) 



Para obtener los momentos superiores de X, es más fácil trabajar con la variable 
aleatoria Y = X - [(a + b)]/2, que desplaza la media a cero, dado que E(Y) = 
E(X) - [(a + b)]/2. De esta forma: 



/(y;0) = 1/0, -0/2sy<0/2, 



(5.23) 



en donde = b - a. De acuerdo con lo anterior, el r-ésimo momento central de Y 
es igual al r-ésimo momento central alrededor del cero, esto es: 



H r (Y) = n'ÁY) = 0" 



re/2 
J-o/2' 



Ydy 



r + 1 



e/2 



-e/2 



07Kr+ 1)2'] 



si r es impar 
si r es par. 



(5.24) 



TABLA 5.5 Comparación entre las frecuencias teórica y observada para una distribución 
uniforme 



Cuota 


Número 


Frecuencia 


Intervalo 


Probabilidad 


Número 


anual 


observado 


relativa 


uniforme 


del intervalo 


esperado 


82- 86 


3 


0.075 


81.5- 86.5 


0.167 


6.667 


87- 91 


7 


0.175 


86.5- 91.5 


0.167 


6.667 


92- 96 


8 


0.200 


91.5- 96.5 


0.167 


6.667 


97-101 


8 


0.200 


96.5-101.5 


0.167 


6.667 


102-106 


7 


0.175 


101.5-106.5 


0.167 


6.667 


107-111 


7 


0.175 


106.5- II 1.5 


0.167 


6.667 


Totales 


40 


1.000 




1.000 


40.000 



146 Algunas distribuciones continuas de probabilidad 

Dado que ni la varianza ni los factores de forma se ven afectados por el cambio de 
localización, la varianza, el coeficiente de asimetría y la curtosis relativa de la va- 
riable aleatoria distribuida uniformemente se encuentran a partir de (5.24) y están 
determinadas por: 



Var(X) = (b - a) 2 / 12, 
a¿X) = 0, y 

(b - a) 4 /80 



a¿X) 



(5.25) 
(5.26) 

(5.27) 



[(b-a) 2 /]2] 2 5' 
Puede emplearse (5.23) para determinar la desviación media de la siguiente manera: 



E\Y\ = 0- 



20- 



, <>/2 

' ydy 

Jo 



0/4. 



(5.28) 



De esta forma la desviación media de una variable aleatoria distribuida de manera 
uniforme está dada por (b - a)/ A. 

Una distribución uniforme es simétrica y tiene un pico menor que el de la distri- 
bución normal, no tiene moda y su mediana es igual a la media. Los valores cuanti- 
les x q , correspondientes a la proporción acumulativa q, son de manera tal que: 



los que, por (5.20) son: 



F(x q ; a, b) = q, 



a + (b - á)q. 



(5.29) 



En la tabla 5.6 se encuentran resumidas las propiedades de esta distribución. 

Más adelante se examinará el caso especial cuando a = Oyb = 1 . Este último se 
conoce como distribución uniforme sobre el intervalo unitario (0, 1) con función de 



TABLA 5.6 


Propiedades básicas de la distri 


jución uniforme 








Función 


de densidad de probabilidad 




Parámetros 




,/U: «, h) 


= \/(b - «), 


a < x < b 


a. 

b. 




- -*■ < a < * 

-X < /) < x. 




Media 


Varianza 


Desviación 
media 


Valor del 
cuan til 




Coeficiente 

de 
asimetría 


Curtosis 
relativa 


Ui + h)/2 


(b - «)7l2 


(b - a)/4 . 


* q = a + (h - 


u)q 





9/5 



5.4 La distribución beta 147 



densidad de probabilidad: 



/U;0, 1) = 1, 0<*<1. 



(5.30) 



Esta distribución es, de manera especial, muy importante ya que tiene un papel clave 
en la simulación por computadora de los valores de una variable aleatoria con una 
distribución específica. 



5.4 La distribución beta 

Una distribución que permite generar una gran variedad de perfiles es la distribución 
beta. Se ha utilizado para representar variables físicas cuyos valores se encuentran 
restringidos a un intervalo de longitud finita y para encontrar ciertas cantidades 
que se conocen como límites de tolerancia sin necesidad de la hipótesis de una distri- 
bución normal. Además, la distribución beta juega un gran papel en la estadística 
bayesiana. Se examinará un ejemplo de lo anterior en el capítulo seis. 

Definición 5.3 Se dice que una variable aleatoria X posee una distribución beta si 
su función de densidad de probabilidad está dada por: 



f(x\ a, p) 



T(a + j8) 
r(a)r(j8) 





'(1 - x) 



,/j-i 



0<jc<1, a, ¿3>0, 



(5.31) 



para cualquier otro valor 



1 



! 



yii 



Las cantidades a y ¡3 de la distribución beta son, ambas, parámetros de perfil. 
Valores distintos de a y ¿3 darán distintos perfiles para la función de densidad beta. 
Sin tanto a como f3 son menores que uno, la distribución beta tiene un perfil en for- 
ma de U. Si a < 1 y /3 > 1, la distribución tiene un perfil de J transpuesta, y si 
/3 < ]y« > 1, el perfil es una J. Cuando tanto a y f3 son ambos mayores que uno, 
la distribución presenta un pico en x = (a - l)/(a + f} -2). Finalmente, la 
distribución beta es simétrica cuando a = j3. En la figura 5.6 se encuentran ilustra- 
dos estos perfiles para valores específicos de a y f3. Nótese que si en (5.31) x se reem- 
plaza por x — 1 , se obtiene la siguiente relación de simetría 



/(l -x;p,a) =j\x;a,p) 



(5.32) 



El nombre de esta distribución proviene de su asociación con la función beta que 
se encuentra definida por 

B(a,fi) = i jc q -'(1 - xf"dx. (5.33) 

Jo 

Puede demostrarse que las funciones beta y gama se encuentran relacionadas por la 
expresión 



B(a, 0) = 



IXa)r(/3) 



(5.34) 



148 Algunas distribuciones continuas de probabilidad 




a = = 2 



0.2 0.4 0.6 0.8 



0.2 0.4 0.6 0.8 






FIGURA 5.6 Gráficas de la función de densidad beta para distintos valores de a y /3 



Mediante el empleo de (5.33) y (5.34), es obvio que (5.31) es una función de densidad 
de probabilidad. Esto es: 



r(g + /3)íy, (1 _ ;cr ^ = r(a + /3) 

U X) ax na)r(j8) 



r(a)r(j8) Jo 



B(a,p)= 1, 



y puesto que /(*; a, /3) es no negativa, (5.31) es una función de densidad de proba- 
bilidad. 

La función de distribución acumulativa se encuentra definida por: 



P(X < x) = F(x; a,f3)=- 





r(a)r(j8) 
1 



x<0, 



^-ffV'ü-rr 1 ^ 0<jc<1, 



(5.35) 



x> 1. 



La integral que aparece en (5.35) es la función beta incompleta: 

B¿a,p) = í f-'(l -tf- ] dt. 
Jo 



(5.36) 



De esta forma, la función de distribución beta puede expresarse como un cocien- 
te de funciones beta incompletas, 



FU; a, j8) = B¿a, B)/B(a, B) 

= I x (a,B) < jc < 1, 



(5.37) 



donde /*(<*, B) se encuentra tabulada de manera extensa (véase [5,6]). En [5], los 
valores cuantiles x son aquellos para los que /,(a, B) es igual a 0.0025, 0.005, 0.01, 



5.4 La distribución beta 149 

0.025, 0.05, 0-1 » 0.25 y 0.5 para las distintas combinaciones de a y j3. Con el fin de 
encontrar los valores cuantiles correspondientes a puntos de alto porcentaje, consi- 
dérese lo siguiente: 

P(X < x) = P(l - X > 1 - x) 

= 1 -P(l -X<\ - x); 

entonces, por la relación de simetría (5.32): 

F{x;a,p) = 1 -F(l -jr;/3,a) 
o 

Ü«,J8)= 1 -/,_,(/3,a). (5.38) 

De esta manera, los valores cuantiles para los puntos de alto porcentaje se en- 
cuentran al intercambiar a y /3 y toman el punto de porcentaje igual a 1 — x. A ma- 
nera de ilustración, sea X una variable aleatoria beta con a = 2 y /3 = 4; los valores 
cuantiles 90, 95 y 99 son 0.58389, 0.65741 y 0.77793, respectivamente. En la tabla 5.7 
se proporcionan los valores cuantiles para combinaciones de valores de a y /3 que dan 
origen a los distintos perfiles de la distribución beta. 

Es más fácil obtener los momentos de la variable aleatoria beta mediante el empleo 
del método directo, que por el uso de la función generadora de momentos, debido a 
que esta última no tiene una forma sencilla. En particular, se encontrará una expre- 
sión general que permita obtener el /--ésimo momento alrededor del cero y después 
emplearla para obtener los momentos restantes: 



l(an(B) Jo 

' B(a + r, )8) 



Como resultado, 



E(X) 



r(a)r(/8) 
T(a + /8) 

r(a)r(/8) 

Ha + b) r(a + rWjp) 

r(a)r(j8) ' T(a + /3 + r) 
Ua + fi)r(a + r) 

r(o)r(a + /8 + /■)" 

Ha + j8)r(a + 1) 
r(a)Ua + fi + 1) 
a 



(5.39) 



Vflz-(A') = 



a + /3' 
a(a + I) 



(5.40) 



(a + 0)(a + + 1) (a + /3)" 
a/3 



(a + /3) 2 (a + /3 +1)' 



(5.41) 



150 Algunas distribuciones continuas de probabilidad 



TABLA 5.7 Valores de cuantiles beta para distintas combinaciones dea y]3 



¿OÍS 



•*0.50 



•Í0.75 



a = jB = 1/2 

a = 1/2, p = 2 

a = 2, p = 1/2 

a = 4, = 6 



0.14645 


0.50000 


0.85355 


0.02831 


0.12061 


0.31122 


0.68878 


0.87939 


0.97169 


0.29099 


0.39308 


0.50199 



Al seguir este procedimiento y después de efectuar el álgebra necesaria, el coeficiente 
de asimetría y la curtosis relativa para la distribución beta están dadas por: 



a 4 (X) = 



2(jB -a) y/a + jB.+ 1 

a,(A) = -= , 

V<*y3 (a + y3 + 2) 

3(a + jB + l)[2(a + ¡3) 2 + afija + jB - 6)] 
afta + (3 + 2)(a + + 3) 



(5.42) 



(5.43) 



Mediante el examen de (5.42) puede observarse que la distribución beta es simétrica 
sólo si a = j3, tal y como ya se habia mencionado. Si a < (3, la distribución tiene 
un sesgo positivo y si a > ¡3, la distribución presenta un sesgo negativo. 

En la tabla 5.8 se proporciona un resumen de las propiedades de la distribución 
beta. 

Algunas áreas, en las que se emplea la distribución beta como modelo de proba- 
bilidad incluyen la distribución de artículos defectuosos sobre un intervalo de tiempo 
específico; la distribución del intervalo de tiempo necesario para completar una fase 
de proyecto en PERT, evaluación de programas y técnicas de revisión, (en este caso 
se emplea la distribución beta generalizada; véase [14]); la distribución de la propor- 
ción de los valores que deben caer entre dos observaciones extremas. 



TABLA 5.8 Propiedades básicas de la distribución beta 



Función de densidad de probabilidad 



Parámetros 



Ha + B) 
/(.v;a./3) = ~x" 

< \ < I 



'(I 



a. 
P. 



a > 
P>0 



Media 


Varianza 






Coeficiente 
de asimetría 


Curtosis 
relativa 




ap 










a 


UP - a)\/a + P + 1 
\/ap~ (a + P + 2) 




a + p 


(a + pfya + P 


+ 


1) 





*M« + fi + l)|2<« + ¡i) 1 f afi(a ■+ fi - 6)| 
afUa + ¡i +■ 2)(« + fi + 3) 



5.4 La distribución beta 151 

La esencia de esta última área tiene relación con los limites estadísticos de tole- 
rancia. Estos límites son muy importantes, especialmente en el control estadístico de 
calidad donde el control de variabilidad de un producto es esencial. Este control, en 
general, se lleva a cabo mediante la medición de algunas propiedades del producto o 
determinando los ajustes que deben hacerse al proceso de producción para mejorar 
la calidad del producto. Los límites estadísticos de tolerancia no son iguales a las to- 
lerancias físicas o especificaciones límite. Éstos son' conjuntos de criterios diseñados 
para un proceso de producción en particular y que se espera que todas las unidades 
cumplan. Los límites estadísticos de tolerancia se tratarán en el capítulo ocho. 

Puede demostrarse que si la suma de los parámetros que determinan el perfil de la 
distribución beta es, de manera relativa, grande, la función de distribución acumulati- 
va beta (5.35) se puede aproximar de manera adecuada por la diferencia de dos fun- 
ciones de distribución normal estándar. Esto es: 



F(x; a, p) » F„(z u ; 0, 1) - F N (z ( ; 0, 1), 



(5.44) 



en donde: 



z u = 



Zt = 



[p] -0.5 - (a + j3 - 1)(1 - jc) 
[(a + j8 - lKxXl - *)]"* ' 

(a + j8 - 1X1 - x) + 0-5 
'[(a + j3- l)«(i -jc)] ,/2 ' 



y [p] denota el entero más grande que no excede a p. En la tabla 5.9 se tiene una 
comparación entre los valores de la función beta dados por (5.35) con aquéllos pro- 
porcionados por (5.44). Para cada valor x, el primer renglón correspondiente a ésta 
es el valor exacto de la distribución beta y el siguiente es el que proporciona (5.44). 
Para valores distintos de los finales, la aproximación es adecuada. Sin embargo, nó- 
tese que la discrepancia en los valores superiores disminuye conforme la suma de a y 
es más grande. 



TABLA 5.9 Comparación entre las funciones de distribución beta y normal 



X 


a = /3 = 5 


a = 10, /3 = 5 


a = 10, /3 = 15 


0.10 


0.0008909 


0.0000001 


0.0000521 




0.0000317 


0.0 


0.0000007 


0.25 


0.04893 


0.0003419 


0.05466 




0.04182 


0.0001078 


0.04947 


0.50 


0.50 


0.08978 


0.8463 




0.4996 


0.09009 


0.8461 


0.75 


0.95107 


0.74153 


0.99989 




0.94118 


0.72564 


0.99886 


0.90 


0.9991091 


0.99077 


1.0 




0.9405883 


0.95160 


0.9756 



152 Algunas distribuciones continuas de probabilidad 

5.5 La distribución gama 

Otra distribución de gran uso es la distribución gama. Entre los muchos usos que 
esta distribución tiene se encuentra el siguiente: supóngase que una pieza metálica se 
encuentra sometida a cierta fuerza, de manera que se romperá después de aplicar un 
número específico de ciclos de fuerza. Si los ciclos ocurren de manera independiente 
y a una frecuencia promedio, entonces el tiempo que debe transcurrir antes de que el 
material se rompa es una variable aleatoria que cumple con la distribución gama. 

Definición 5.4 Se dice que la variable aleatoria X tiene una distribución gama si su 
función de densidad de probabilidad está dada por: 



1 







x a ~'e\p(-x/9) x>0, a,0>0 



f(x; a, 9) = • 
en dond° T(a) es la f unción gama definida en el capítulo tres. 



(5.45) 
para cualquier otro valor, 



La distribución gama es muy versátil puesto que exhibe varios perfiles que de- 
penden del valor del parámetro a. En la figura 5.7 se ilustran distintos perfiles de la 
función de densidad gama para distintos valores de a y 6. Como puede observarse, 
para a =£ 1, la distribución gama tiene un perfil en forma de J transpuesta. Para 



A*) 




0.7 




0.6 


4 a= 1 




1 0= 1 


0.5 




0.4 




0.3 




0.2 




0.1 





FIGURA 5.7 Gráficas de la función de densidad gama para distintos valores deoyí 



5.5 La distribución gama 153 

a > 1, presenta un pico que ocurre en x = 6(a - 1). Para un valor fijo de , el 
perfil básico de la distribución gama no se altera si el valor de a cambia. Lo anterior 
da como resultado que las cantidades a y son los factores de forma y de escala, 
respectivamente, de la distribución gama. [ 

Esta distribución se emplea de manera extensa en una gran diversidad de áreas; 
por ejemplo, para representar el tiempo aleatorio de falla de un sistema que falla sólo 
si de mañera exacta los componentes fallan y la falla de cada componente ocurre 
a una frecuencia constante \ = 1/0 por unidad de tiempo. También se emplea en 
problemas de lineas de espera para representar el intervalo total para completar una 
reparación si ésta se lleva a cabo en subestaciones; completar la reparación en cada 
subestación es un evento independiente que ocurre a una frecuencia constante igual 
a X = 1/6. Existen algunos ejemplos que no siguen el patrón anterior, pero que se 
aproximan de manera adecuada mediante el empleo de la distribución gama, como 
los ingresos familiares y la edad del hombre al contraer matrimonio por primera vez. 

Mediante el empleo de la función gama dada por (3.5), puede demostrarse que 
(5.45) es una función de densidad de probabilidad. Para hacerlo, considérese un 
cambio de variable de integración, tal que u = x/6, x = du, y dx = 6du\ en- 
tonces: 

=¿r wa " ,exp( - w)í/w=i ' 

dado que T(a) = JÓ u a ~ ] exp( — u)du. 

Con un procedimiento similar se demuestra que el r-ésimo momento alrededor 
del cero es: 



= ^í ua+r ~^' u)du 



0T(t* + r) 



(5.46) 



Ha) 
Se sigue, por lo tanto, que: 

E{X) = ad (5.47) 

y 

Var(X) = a0 2 (5.48) 

Además, después de obtener los momentos centrales apropiados, se puede demostrar 
que el coeficiente de asimetría es 

a¿X) = 2/V«. (5 - 49) 



154 Algunas distribuciones continuas de probabilidad 

y la curtosis relativa está dada por: 

a¿X) = 3Í 1 + \ (5.50) 

Nótese que a partir de los factores de forma (Xt,(X) y a 4 (X), la distribución gama 
tiene un sesgo positivo y mas picos que la distribución normal, puesto que a 4 (X) > 3 
para cualquier a > 0. Sin embargo, también debe notarse que conforme el pará- 
metro a se hace cada vez más grande, el sesgo se convierte en menos pronunciado y 
la curtosis relativa tiene el tres como valor límite. De hecho, para valores grandes de 
a la distribución gama puede aproximarse, en algún grado, por una distribución 
normal. Esto es, la variable aleatoria 

Z = {X - ad)/d^/a (5.51) 

es, de manera aproximada, igual a la normal estándar para valores grandes de a. 
La función generadora de momentos para la variable aleatoria gama A' está dada 
por: 

E[cxp«X)] = —i— í j-'expl-O - 8t)x/d]dx. 
1 (a)u Jo 

Sea M = (i - et)x/6, x = u6/(l - 6t), y dx = [«9/(1 - 6t)\du. Entonces: 
Eíexpí*)] = ^ [ ^f^pr exp( - u) ^^ du 

= r(« ) (i 1 -^r/o" a " exp( - í/)í/ " 

= (1 - etr a , 0</< 1/(9. (5.52) 

La función de distribución acumulativa se determina por la siguiente expresión: 

F(x; a, 8) = — \- \ t a ~ 'exp( - t/d)dt, x>0. (5.53) 

Se tabularon muchas versiones de (5.53). Por ejemplo, si se efectúa el cambio de va- 
riable u = t/6 de manera tal que / = 6u y dt = Odu, entonces (5.53) toma la si- 
guiente forma: 

1 f- v/ " 

F < x > a - B) = FT~7^ {du) " ' ' ex P ( _ " )edu 
T(a)(? Jo 

1 í v/ " 

u" 'exp(-«)c/H. 



La integral /;/" u" ' 'exp( - »)t/» se conoce como la función gama incompleta y 
se denota, generalmente, por y(x/d; a). El cociente de y(x/8; a) y de la función 
gama completa T(a) recibe el nombre de cociente de la función gama incompleta y 



5.5 La distribución gama 155 

se encuentra tabulado en [8] para distintos valores de x/6 y a. De acuerdo con lo 
anterior, la función gama de distribución acumulativa se escribe como: 



P(X < x) = F(x; a, 0) = y(x/6; a)/r(a). 



(5.54) 



En [7] se encuentra una tabla muy extensa de los valores de una función equivalente 
a (5.53), dada por: 



I(u, p) = F(x; a, 0), 



(5.55) 



donde u - x/9\/a y p = a - l. Debe notarse que si el parámetro de forma a es 
un entero positivo, (5.55) se puede expresar, en forma cerrada: 



FU; a, 0) = 1 - 



l + ~e + m + 



+ 



1 



(a - 1)!\0 



exp(-*/0) (5.56) 



como resultado de efectuar varias integraciones por partes. También el valor cuantil 
x q para el que F{x q \ a, 6) = q no puede determinarse de manera directa; éste 
puede interpolarse a partir de los valores que aparecen en las tablas dadas en [7] /x 
[8]. En la tabla 5.10 se da un breve resumen de las propiedades básicas de la distribu- 
ción gama. 

Ejemplo 5.9 Supóngase que cierta pieza metálica se romperá después de sufrir dos 
ciclos de esfuerzo. Si estos ciclos ocurren de manera independiente a una frecuencia 
promedio de dos por cada 100 horas, obtener la probabilidad de que el intervalo de 
tiempo se encuentre hasta que ocurre el segundo ciclo: a) dentro de una desviación 
estándar del tiempo promedio, y b) a más de dos desviaciones estándar por encima 
de la media. 



Sea X la variable aleatoria que representa el lapso que transcurre hasta que la 
pieza sufre el segundo ciclo de esfuerzo. Si atiene una distribución gama con a = 2 
y = 50 horas debido a que la frecuencia promedio es 0.02 por hora. La fun- 



TABLA 5.10 Propiedades de la distribución 


gama 






Función de densidad de probabilidad 




Parámetros 


ñx\ a, 0) = Fr^* ~'exp( -x/6) 
x>0 




9, 


a >0 
0>O 


Media Varianza 


Coeficiente 
de asimetría 




Curtosis relativa 


ad , aO 2 


2/V« 




>H) 



156 Algunas distribuciones continuas de probabilidad 



ción de densidad de probabilidad es 

_1_ 

r(2)50 2 

y la función de distribución acumulativa dada por (5.56) se reduce a: 



f(x;2, 50) = í^— 5 x exp( - jf/50), x > 0, 



F(jr; a, 6) = 1 - í 1 + ^jexp(-Jt/50), x > 0. 

De (5.47) y (5.48), los valores de la media y de la desviación estándar de Jfson 100 y 
70.71, respectivamente. De acuerdo con lo anterior: 

P{/jl - o- < X < n. + o-) = PO.9.29 <X< 170.71) 

= F( 170.71; 2, 50) - F(29.29; 2, 50) 

= 0.7376. 

Ñútese que la probabilidad de que el lapso sea menor de una desviación estándar 
por debajo de la media es de 0. 1 172 y la probabilidad de que éste sea más grande que 
la media por una desviación estándar es 1 - 0.8548 = 0.1452. Finalmente: 

P(X > fi + 2o-) = P(X > 241.42) 

= 1 - ^(241.42; 2, 50) 

= 0.0466. 

Ejemplo 5.10 Para demostrar el grado de concordancia entre las distribuciones 
normal y gama, se seleccionaron, para esta última, los valores de 3.5 y 7 para el pará- 
metro de forma a, y para 5=10, calculándose las funciones de distribución acu- 
mulativa para distintos valores de las correspondientes variables aleatorias. La in- 
formación anterior se encuentra en la tabla 5.11. 

A partir de la información dada en la tabla 5.11, es evidente que la función de 
distribución acumulativa normal sobreestima los valores dados por la correspon- 
diente función de distribución acumulativa gama en los extremos, mientras que la 
subestima alrededor de la media. Lo anterior es válido para los dos valores de a; sin 
embargo, para a = 7, la concordancia en los extremos es considerablemente mejor 
que cuando a = 3.5. Como resultado, se espera que la concordancia aumente para 
valores de a más grandes que siete. 

Cuando a es un entero positivo, la distribución gama también se conoce como 
distribución de Erlang en honor del científico danés que la usó por primera vez a 
principios del año 1900 a fin de establecer resultados útiles para problemas de tráfico 
en líneas telefónicas. Existe una asociación entre los modelos de probabilidad de 
Poisson y de Erlang. Si el número de eventos aleatorios independientes que ocurren 
en un lapso específico es una variable de Poisson con una frecuencia constante de 
ocurrencia igual a 1/0, entonces para una a, el tiempo de espera hasta que ocurre el 
a-ésimo evento de Poisson tiene una distribución de Erlang. Este resultado se sigue 
al hacer una comparación entre las funciones de distribución acumulativa de los mo- 



3.5 La distribución gama l$l 



TABLA 5.11 Comparación entre las funciones de distribución acumulativa gama y normal 



a 


= 3.5, e 


= 10, p = 
o- = 18.71 


2.5; ft = 35, 


a 


= 1,9 


= 10, p = 6; 
ar = 26.46 


ft = 70, 






Gama 


Normal 






Gama 


Normal 


X 


u 


/(«, P) 


F(x; fi, a-) 


X 


u 


/(«, P) 


F(x; ii, cr) 











0.0307 











0.0041 


5 


0.27 


0.0058 


0.0516 


10 


0.38 


0.000098 


0.0116 


10 


0.53 


0.0397 


0.0902 


20 


0.76 


0.004865 


0.0294 


15 


0.80 


0.1144 


0.1423 


30 


1.13 


0.0431 


0.0655 


20 


1.07 


0.2209 


0.2119 


40 


1.51 


0.1103 


0.1292 


25 


1.34 


0.3417 


0.2981 


50 


1.89 


0.2380 


0.2236 


30 


1.60 


0.4587 


0.3936 


60 


2.27 


0.3946 


0.3520 


35 


1.87 


0.5706 


0.5000 


70 


2.65 


0.5518 


0.5000 


40 


2.14 


0.6678 


0.6064 


80 


3.02 


0.6853 


0.6480 


45 


2.41 


0.7485 


0.7019 


90 


3.40 


0.7928 


0.7764 


50 


2.67 


0.8107 


0.7881 


100 


3.78 


0.8698 


0.8708 


55 


2.94 


0.8612 


0.8577 


110 


4.16 


0.9215 


0.9345 


60 


3.21 


0.8997 


0.9098 


120 


4.54 


0.9544 


0.9706 


65 


3.47 


0.9274 


0.9485 


130 


4.91 


0.9739 


0.9884 


70 


3.74 


0.9486 


0.9693 


140 


5.29 


0.9857 


0.9959 


75 


4.01 


0.9640 


0.9838 


150 


5.67 


0.9924 


0.9987 


80 


4.28 


0.9750 


0.9920 


160 


6.05 


0.9960 


0.9997 



délos de Poisson y de Erlang dadas por (4.17) y (5.56), respectivamente. Esto es, la 
probabilidad de que ocurran a lo más a - 1 eventos de Poisson en un tiempo x a una 
frecuencia constante 1/0 se desprende de (4.17) y está dado por: 



F P (a - l;x/0) = 



,+ MG) 



e 



\ 2 



1 



(a - 1)!\0, 



exp(-x/0). 



Por otro lado, si se supone que el tiempo de espera sigue el modelo de Erlang, la 
probabilidad de que el tiempo de espera hasta que ocurra el a-ésimo evento exceda 
un lapso x específico, está determinado por: 



P(X>x) = 1 - F t (x;a,0) 

1 

+ 



e 2\\e 



(a - 1)!\0 



exp( - r/0) 



1 + - + -f'-l + ••• + 

6 2!\0/ (a - 1)!\0 



= F/Aa- \:x/0). 



exp(--v/0) 



(5.57) 



158 Algunas distribuciones continuas de probabilidad 

En otras palabras, la probabilidad de que el tiempo que transcurre hasta el 
a -ésimo evento exceda el valor x es igual a la probabilidad de que el número de even- 
tos de Poisson observados en x no sea mayor que a - 1 . De esta forma, la distribu- 
ción de Erlang es el modelo para el tiempo de espera hasta que ocurre el a -ésimo 
evento de Poisson, y la distribución de Poisson es el modelo para el número de even- 
tos independientes que ocurren en un tiempo x, encontrándose éste distribuido de 
acuerdo con el modelo de Erlang. En este contexto, 1/0 es la frecuencia constante 
de ocurrencia y 6 es el tiempo promedio entre dos ocurrencias sucesivas. 

Cuando el parámetro de forma a es igual a uno, la distribución de Erlang (gama) 
se reduce a lo que se conoce como la distribución exponencial negativa. Esta distri- 
bución se emplea de manera extensa para representar lapsos aleatorios de tiempo y 
se trata con gran detalle en una sección subsecuente de este capitulo. Sin embargo, 
nótese que la variable aleatoria de una distribución exponencial negativa puede pen- 
sarse como el lapso que transcurre hasta el primer evento de Poisson. De acuerdo 
con lo anterior, la variable aleatoria de Erlang es la suma de variables aleatorias in- 
dependientes distribuidas exponencialmente. 

Otro caso especial del modelo de probabilidad gama es la distribución chi- 
cuadrado. Si se reemplaza en (5.45) el parámetro de forma a con v/2 y el pará- 
metro de escala 8 con 2, el resultado es la función de densidad de probabilidad de 
una variable aleatoria chi-cuadrado y se determina por: 



f(x; v) = { 



„»/2- I 



exp(-.v/2) .v > 0, 



l>/2)2" /2 ~" ry "' ' "" (5.58) 

para cualquier otro valor. 



La distribución chi-cuadrado se encuentra caracterizada por un solo parámetro v, 
que recibe el nombre de grados de libertad. Como se verá, esta distribución inter- 
viene en la inferencia estadística y de manera especial al hacer inferencias con respec- 
to a las varianzas. Se emplea, de manera general, la notación X ~ xl para indicar 
que una variable aleatoria tiene una distribución chi-cuadrado con v grados de li- 
bertad. 

La función de distribución acumulativa está dada por: 

P(X < .v) = r{v } 2)T , 2 1 f' 2 - ' exp( - t/2)dt x > 0, (5.59) 

y se encuentra tabulada de manera extensa. En la tabla E del apéndice se encuentran 
los valores cuantiles .y, _„„, de manera que 

P(X^X^„„) = i ' "f(x;i>)dx = 1 - a 

Jo 

para algunas proporciones acumulativas seleccionadas 1 - a* y distintos valores 
de v. A manera de ilustración, si v = 10, 

* En este contexto, la introducción de la cantidad a, s a £ I . sirve para facilitar una discusión poste- 
rior de un concepto que recibe el nombre de "probabilidad del error de tipo I", que de manera general 
se denota por «. 



5.6 La distribución de Weibull 159 

PiX < xoouo) = P(X ^ 2.55) = 0.01 , 
P(X s Xa0SJ0 ) = P(X < 3.94) = 0.05, 

, P(X < x 0MM ) = P(X < 18.31) = 0.95, 

Y P(X < x aw . l0 ) = P(X < 23. 19) = 0.99. 

Los momentos de la distribución chi-cuadrado se obtienen a partir de (5.47) a 
(5.50) y están dados por: 

E(X) = v, 

Var(X) = 2v, 

..«,(*) = 4/ V2^, 



a 4 (*) = 3ll +-I. 

Análogamente y a partir de (5.52), la función generadora de momentos para la 
distribución chi-cuadrado es: 



m x (t) = (1 - 2í) 



-I//2 



0< í<-. 

2 



(5.60) 



Nótese que una característica interesante de la distribución chi-cuadrado es que el 
valor de su varianza es dos veces el valor de su media. Además, como está distribu- 
ción es un caso especial de la distribución gama, presenta un sesgo positivo y un pico 
mayor que el de una distribución normal, pero el coeficiente de asimetría tiende a 
cero y a una curtosis relativa igual a tres conforme v tiende al infinito. 



4, 

í 



¡i i 



5.6 La distribución de Weibull 

La distribución de Weibull fue establecida por el físico suizo del mismo nombre, 
quien demostró, con base en una evidencia empírica, que el esfuerzo al que se someten 
los materiales puede modelarse de manera adecuada mediante el empleo de esta dis- 
tribución [9]. En los últimos 25 años esta distribución se empleó como modelo para 
situaciones del tipo tiempo-falla y con el objetivo de lograr una amplia variedad de 
componentes mecánicos y eléctricos. 



m 
m 



Definición 5.5 Se dice que una variable aleatoria X tiene una distribución de 
Weibull si su función de densidad de probabilidad está dada por: 



ftx; a, 0) = i 



x a -'exp[-(x/6) a ] x>0; a, 6 > 0, 



(5.61) 
para cualquier otro valor. 



La distribución de Weibull es una familia de distribuciones que dependen de dos 
parámetros: el de forma a y el de escala 8. Se puede introducir un parámetro adi- 



160 Algunas distribuciones continuas de probabilidad 



* i 



cional al reemplazar la variable aleatoria de Weibull X por X - a, en donde a es un 
parámetro de localización que representa un valor umbral o tiempo de garantía. En 
la figura 5.8 se muestran varias gráficas de la distribución de Weibull para distintos 
valores de a y 6, y como puede observarse, esta distribución tiene distintos perfiles 
dependiendo del valor de a. Por ejemplo, si a < 1, (5.61) tiene una forma de J 
transpuesta, y si a > 1 , la función de densidad de Weibull presenta un pico único. 
La función de distribución acumulativa de Weibull 



F(x;a,8) = ^j o t°- , exp[- 



U/e) a ]dt 



(5.62) 



puede obtenerse en forma cerrada mediante la evaluación directa de la integral en 
(5.62). Esto es: 



F(x;a,6) = ~í-^^xp[-(t/e) a ] 



= 1 - exp[ -(*/(?)"], x¡ 
De (5.63), el valor cuantil x q es: 

1 - exp[-(V0)"] = <7 

x q = -0[ln(l - q)V 
I 



0. 



6 



ln 



En particular, la mediana de una variable aleatoria de Weibull es: 

¿es = 0[ln(2)] ,A \ 



(5.63) 



(5.64) 



(5.65) 



/(*) 




a = 


= 0.8 






0.8 
0.6 




10 = 


= 1 


a=2 

Vfl = i 




0.4 










a=2 


0.2 






i 


1^ 


^^0 = 2 



FIGURA 5.8 Gráficas de la función de densidad de Weibull para distintos valores de a y 



5.6 La distribución de Weibull 161 

Los momentos y los factores de una variable aleatoria de Weibull se encuentran 
primero al determinar el r-ésimo momento central alrededor del cero: 

/*; = E(X r ) = í xj{x; a, 6)dx 
Jo 

x a+r - ] expl-(x/d) a ]dx. (5.66) 

o 

En (5.66), sea u = (x/d) a ; entonces x = du l/a y dx = (d/a)u l/a ~ i du. El resulta- 
do es: 

¿ = í\ W" ila y"-'exv{-u)-u Ua ->du 
a Jo a 

= d r f u r/a exp(-u)du 

Jo 



= 0T 1 + 



a 



De (5.67), la media de X es: 



E(X) = 0f 1 + 



y la varianza de X es el resultado de evaluar 
Var(X) = é 



r|i +-) -r 2 (i +- 

a \ a 



(5.67) 



(5.68) 



(5.69) 



Mediante el empleo del mismo procedimiento pueden determinarse el coeficiente 
de asimetría y la curtosis relativa. Éstos se encuentran en la tabla 5.12. Los facto- 



TABLA 5.12 Propiedades básicas de la distribución de Weibull 



Función de densidad de probabilidad 



Parámetros 



f(x;a,0) = —x'- l exp[-(x/er] 







x>0 




0, 0>O 




Media 


Varianza 


Valor del 
cuantil 


Coeficiente 
de asimetría 


Curtosis 


»r(, t l) „. 


[ r (, 


♦M'-¿)] 


*' = K - J] 


* 


** 



*<* } (X) 



T(l + 3/a) - 3r(l + l/a)rg +2/a) + 1V(\ + l/a) 

[r<i + n a ) - r 2 a + \/ a )]" 2 



, _ r(l + 4/a) - 4r(l + l/a)r(l + 3/a) 6r 2 (l + l/«)r(l + 2/a) - 3r 4 (l + l/a) 

_ [fd + 2/a) - r'(l + l/a)] 2 + [f(l + 2/a) - T 2 (l + l/a)l 2 



162 Algunas distribuciones continuas de probabilidad 



TABLA 5.13 

normal 



Comparación entre las funciones de distribución acumulativa de WeibulI y 





a = 


2.25; = 10 


a = 


3.6; = 10 


a = 


5.83; = 10 






Normal 




Normal 




Normal 


X 


WeibulI 


(8.858, 4.128)* 


WeibulI 


(9.01, 2.788)* 


WeibulI 


(9.267, 1.828)* 








0.01578 





0.000619 








1 


0.005608 


0.02872 


0.000251 


0.002052 


0.000001 


0.000003 


2 


0.026395 


0.04746 


0.003041 


0.006037 


0.000084 


0.000034 


3 


0.0644 


0.0778 


0.013025 


0.01539 


0.000894 


0.000302 


4 


0.1195 


0.1190 


0.036259 


0.03593 


0.004775 


0.001988 


5 


0.1896 


0.1762 


0.0792 


0.07493 


0.017425 


0.009903 


6 


0.2716 


0.2420 


0.1470 


0.1401 


0.049616 


0.03673 


7 


0.3612 


0.3264 


0.2419 


0.2358 


0.1175 


0.1075 


8 


0.4541 


0.4150 


0.3610 


0.3594 


0.2384 


0.2451 


9 


0.5457 


0.4880 


0.4956 


0.5000 


0.4179 


0.4404 


10 


0.6321 


0.6064 


0.6S21 


0.6368 


0.6321 


0.6554 


11 


0.7104 


0.6985 


0.7557 


0.7611 


0.8250 


0.8289 


12 


0.7785 


0.7747 


0.8545 


0.8599 


0.9447 


0.9332 


13 


0.8355 


0.8413 


0.9236 


0.9236 


0.9901 


0.9793 


14 


0.8814 


0.8925 


0.9652 


0.9641 


0.999184 


0.9952 


15 


0.9171 


0.9319 


0.9865 


0.9842 


0.999976 


0.999155 



* Media y desviación estándar 



res de forma pueden granearse como funciones del parámetro de forma de la distri- 
bución de WeibulI (véase [2]). Estas gráficas revelan lo siguiente: la distribución de 
WeibulI es simétrica sólo si a = 3.6; si a > 3.6, la distribución tiene un sesgo ne- 
gativo y si a < 3.6, se encuentra sesgada positivamente. La curtosis relativa se en- 
cuentra cercana a la de la distribución normal que es de tres cuando a tiene un valor 
cercano a 2.25 o a 5.83. En la tabla 5.13 se proporciona una comparación entre las 
funciones de distribución acumulativa de WeibulI y normal, con un a correspon- 
diente a la distribución de 2.25 , 3 .6 y 5 .83 y con un factor de escala 6 = 1 0. La con- 
cordancia parece ser relativamente buena tanto en los valores extremos como en el 
centro, especialmente para a = 3.6 y 5.83. De esta forma, la distribución de 
WeibulI puede aproximarse, de manera adecuada, por una distribución normal cada 
vez que el factor de forma a se encuentre cercano a estos valores. 

En la tabla 5.12 se encuentran resumidas propiedades de la distribución de 
WeibulI. 

Existen dos casos especiales en la distribución de WeibulI que merecen mención 
especial. Cuando el parámetro de forma es igual a uno, la distribución de WeibulI (al 
igual que la gama), se reduce a la distribución exponencial negativa. Cuando a = 2 
y el parámetro de escala 6 se reemplaza por y/2 cr, la función de densidad de 
WeibulI (5.61) se reduce a: 



* 






f(x\ cr 2 ) = — exp( -x 2 /2a 2 ) x > 0, 



cr 



(5.70) 



J. 7 La distribución exponencial negativa 163 

que es la función de densidad de probabilidad de lo que se conoce como distribución 
de Rayleigh. 

Ejemplo 5.11 Un fabricante de lavadoras garantiza sus productos contra cual- 
quier defecto durante el primer año de uso normal. El fabricante ha estimado un 
costo por reparación de $75 durante el periodo de garantía. Con base en la experien- 
cia, se sabe que el tiempo en que ocurre la primera falla es una variable aletoría de 
Weibull con parámetros de forma y escala iguales a 2 y 40, respectivamente. Si el 
fabricante espera vender 100 mil unidades y si, para una misma unidad, se descuenta 
el valor de las reparaciones, se determina el costo esperado de la garantía para el 
fabricante. 

Sea X la variable aleatoria que representa el tiempo que transcurre hasta que se 
presenta la primera descompostura. Por hipótesis, la función de densidad de proba- 
bilidad de X es: 



/(jc;2,40) = — 2 xexp[-(x/40) 2 ], 



x> 0. 



La probabilidad de que la primera descompostura ocurra durante el periodo de 
garantía es igual a la probabilidad de que X sea menor o igual a 12. Mediante el 
empleo de (5.63), esta probabilidad es: 

P(X< 12) = 1 - exp[-(12/40) 2 ] = 0.0861. 

Por lo tanto, si se supone que la operación de las lavadoras es independiente entre sí, 
se pueden esperar (100 000)(0.861) = 8610 de fallas durante el tiempo de garantía 
con un costo total de $645 750. 



5.7 La distribución exponencial negativa 

Se ha notado con anterioridad que la distribución exponencial (negativa) es un caso 
especial de los modelos de Weibull y gama. Ya que es un caso especial de la distribu- 
ción gama (Erlang), la variable aleatoria exponencial es el tiempo que transcurre 
hasta que se da el primer evento de Poisson. Es decir, la distribución exponencial 
puede modelar el lapso entre dos eventos consecutivos de Poisson que ocurren de 
manera independiente y a una frecuencia constante. Esta distribución se emplea con 
bastante frecuencia con objeto de modelar problemas del tipo tiempo-falla y como 
modelo para el intervalo en problemas de líneas de espera. Posteriormente se de- 
mostrará que la distribución exponencial no tiene "memoria". Es decir, la probabi- 
lidad de ocurrencia de eventos presentes o futuros no depende de los que hayan 
ocurrido en pl pasado. De esta forma, la probabilidad de que una unidad falle en un 
lapso específico depende nada más de la duración de éste, no del tiempo en que la 
unidad ha estado en operación. 



164 Algunas distribuciones continuas de probabilidad 

Definición 5.6 Si una variable aleatoria X tiene una distribución exponencial, su 
función de densidad de probabilidad está dada por: 



/(*; 9) = 



-c\p{-x/d) x>0, 0>O, 

9 (5 - 7l) * 

L para cualquier otro valor. § 



La distribución exponencial se caracteriza por un parámetro 9, que representa el 
lapso promedio de tiempo entre dos eventos independientes de Poisson. En el con- 
texto de la confiabilidad, 6 recibe el nombre de tiempo promedio entre fallas, y 1/6 
es la frecuencia de falla. La función de distribución acumulativa se obtiene directa- 
mente de los modelos de Weibull o de Erlang y está determinada por 

P(X < jc) = F{x; 8) = 1 - exp(-x/0). (5.72) 

Las expresiones para los valores cuantiles, momentos y factores de forma para esta 
distribución, se obtienen de las correspondientes expresiones para la distribución de 
Weibull con a = 1. Estoes: 

x q = 0ln[l/(l - q)], 

E{X) = e, 

VariX) = d 2 , 

<*i(X) = 2, y 

a¿X) = 9. 

En problemas de confiabilidad, generalmente el interés recae en determinar el 
tiempo de vida promedio de un componente o de un sistema de éstos. El problema 
esencial consiste en identificar la distribución de probabilidad de la variable aleatoria 
que, de manera adecuada, proporciona un modelo para el tiempo de falla. En esta 
línea, una cantidad muy útil es la función de confiabilidad. 

Definición 5.7 Sea Tuna variable aleatoria que representa el tiempo de vida de un 
sistema y sea f(t) la función de densidad de probabilidad de T. La función de con- 
fiabilidad del sistema a tiempo t, R(t), es la probabilidad de que el lapso de dura- 
ción del sistema sea mayor que un tiempo / dado. De acuerdo con lo anterior, 

R(t) = P(T> t) = 1 - F(t), t > 0. (5.73) 

Otra cantidad muy útil para seleccionar una función de densidad de probabilidad 
para el lapso de vida medio de una unidad (o sistema) es la frecuencia de falla o fun- 
ción de riesgo, que se define de la siguiente forma: 

Definición 5.8 Sean/f^ y R(t) las funciones de densidad de probabilidad y de 
confiabilidad, respectivamente, de una unidad en un tiempo dado /. La. frecuencia 
de falla h(t) se define como la proporción de unidades que fallan en el intervalo 



5. 7 La distribución exponencial negativa 165 

(/, / + di) con respecto a las que siguen funcionando a tiempo /, y está determinada 
por: 

h(t) = f(t)/R(t). (5.74) 

Si se conoce la frecuencia de falla, es posible determinar la función de densidad 
de probabilidad de la variable aleatoria. Dado que R(t) = 1 - F(t), mediante di- 
ferenciación con respecto a /, se tiene que R'(t) = -F'(t); pero F'(t) = /(/). 
Como resultado se tiene que la frecuencia de falla puede expresarse como: 

h(t) = -R\t)/R(t). (5.75) 

Suponiendo que el sistema comenzó a funcionar en t = 0, R(0) = I . Integrando 
ambos miembros de (5.75) desde hasta /, se tiene: 



I h(x)dx = - í [R'(x)/R(x)]dx 

Ja Jo 



JO 

= -HR(t)] + ln[/?(0)] 

= -HRU)], 
donde x es una variable muda de integración. Dado que: 

-ln[R(t)] = f h(x)dx, 

Jo 

se tiene: 

R(t) = exp -I h(x)dx 

Mediante el empleo de (5.74), la función de densidad de probabilidad es: 



fit) = /i(/)exp - h(x)dx 



VI 



(5.76) 



Existen muchos fenómenos físicos de naturaleza aleatoria que muestran frecuen- 
cias de falla que tienen un parecido a "la curva de la tina de baño", tal y como se 
ilustra en la figura 5.9. En el intervalo de tiempo, de a /,, la frecuencia de falla es 
apreciable pero disminuye en valor debido al "síndrome de mortalidad infantil", 
mismo que sugiere que las primeras fallas pueden tener su origen en defectos de 
fabricación. Durante el intervalo de í, a t 2 , h(t) es casi constante, pero comienza a 
aumentar de valor después de t 2 por fallas debidas al desgaste de los componentes. 
Se puede imaginar una frecuencia de falla constante si los componentes se prueban 
inicialmente para detectar fallas por desgaste y se reemplazan antes de t 2 . 

Si la frecuencia de falla 1/0, es constante, la función de densidad de probabili- 
dad del tiempo de vida medio es la exponencial negativa. Esto es, si h(t) = 1/0. en- 
tonces de (5.76) se tiene: 



fU) = - exp 

V 






-exp(-f/0). 



166 Algunas distribuciones continuas de probabilidad 



h(t) 




FIGURA 5.9 Función de frecuencia de falla típica 



Nótese que la proposición inversa también es cierta; si el tiempo de vida medio se en- 
cuentra distribuido de manera exponencial, la frecuencia de falla es constante. Dado 
que la función de confíabilidad a tiempo t para un tiempo de vida medio distribuido 
exponencialmente es: 



t/S), 



R(t) = exp( 
la frecuencia de falla está dada por: 

(l/0)exp( 



/>0, 



(5.77) 



hit) = 



t/S) 



exp( 
1/0, 



■t/S) 



/>0. 



Una frecuencia de falla constante implica que la probabilidad de falla en un in- 
tervalo de tiempo determinado, depende de la duración de éste y no del tiempo en 
que el sistema ha estado operando. Esta última es la propiedad de "no memoria". A 
pesar de que el lapso de vida media no se encuentra distribuido de manera exponen- 
cial a lo largo de todo el periodo de funcionamiento del componente, el tiempo de 
operación de un sistema que contiene a éstos puede modelarse de manera adecuada 
por una distribución exponencial si se añade una selección inicial y una política de 
mantenimiento adecuada para los componentes. 

Muchos investigadores proporcionan justificación empírica para la distribución 
exponencial en problemas de confíabilidad . El trabajo de Davis [3], quien demostró 
que el lapso de duración de ciertos componentes eléctricos puede modelarse de ma- 
nera adecuada por una distribución exponencial, es típico en este sentido. Como 
ejemplo de este trabajo, la tabla 5. 14 contiene una comparación entre las frecuencias 
observada y teórica para el tiempo de duración del bulbo V805. El tiempo oe vida 
promedio para este bulbo, con base en los datos que se observaron fue de 179 horas. 
Al sustituir este valor de en (5.72), se pueden obtener las probabilidades teóricas 
para la distribución exponencial. 



5.8 La distribución de una función de variable aleatoria 167 



TABLA 5.14 Frecuencias observada y esperada para el bulbo V805 



Tiempo de 










duración 


Frecuencia 


Frecuencia 


Probabilidad 


Frecuencia 


(horas) 


observada 


relativa 


del intervalo 


esperada 


0-80 


317 


0.3511 


0.3604 


325.4 


80-160 


230 


0.2547 


0.2305 


208.2 


160-240 


118 


0.1307 


0.1474 


133.1 


240-320 


93 


0.1030 


0.0943 


85.2 


320-400 


49 


0.0543 


0.0603 


54.5 


400-480 


33 


0.0365 


0.0386 


34.8 


480-560 


17 


0.0188 


0.0247 


22.3 


560-700 


26 


0.0288 


0.0238 


21.5 


700 o más 


20 . 


0.0221 


0.0200 


18.1 


Totales 


903 


1.0000 


1.0000 


903.1 



El prgumento para emplear la distribución exponencial como modelo para el 
tiempo aleatorio en problemas de lineas de espera es similar al que se emplea en los 
lapsos de duración de un componente. Esto es, si un taller de reparación opera por 
un tiempo suficientemente largo para obtener una condición cercana al equilibrio, la 
probabilidad de hacer una reparación o que ésta se complete en un tiempo determi- 
nado, dependerá de este último, y no del que haya transcurrido en llevar a cabo la úl- 
tima reparación o el completarla. 

A pesar de que la distribución exponencial negativa se emplea muchas veces para 
modelar la duración aleatoria de cierto componente, no es la distribución más apro- 
piada, en el tiempo en que ocurrirá una falla, para todos los dispositivos. Existe 
una razón para creer que el lapso de tiempo que el componente tiene en operación 
afecta su duración. Los modelos más apropiados en estos casos son la distribución 
de Weibull o la de Erlang. Éstas exhiben frecuencias de falla crecientes, decrecientes 
o constantes dependiendo de cuándo los valores de los parámetros de forma son más 
grandes que, menores que, o iguales a uno, respectivamente. Por ejemplo, la función 
de confiabilidad para la distribución de Weibull está determinada por: 



y la frecuencia de falla es: 



R(t) = exp[-(//0y] 



h{t) = at a '/d a . 



(5.78) 



(5.79) 



Un ejemplo de sistema con una frecuencia de falla decreciente es aquél que mejora 
su funcionamiento con el paso del tiempo. Un ejemplo de este fenómeno es la dura- 
ción de una empresa. Entre más tiempo tenga ésta operando con menor frecuencia 
se observará una falla en un intervalo dado de tiempo. 



5.8 La distribución de una función de variable aleatoria 

Uno de los ingredientes clave en inferencia estadística es la distribución de probabili- 
dad de la "estadística" con base en la cual se formula la inferencia. Puesto que las 



168 Algunas distribuciones continuas de probabilidad 

estadísticas son funciones de variables aleatorias, en muchas ocasiones es posible ob- 
tener sus distribuciones si se conocen las variables aleatorias sobre las que éstas se 
basan. 

En esta sección se examinará una técnica para determinar la distribución de 
una función de variable aleatoria, considerando el caso de una variable aleatoria 
continua. Sea X una variable aleatoria con función de densidad de probabilidad 
/*(■*)> y sea Y = g(X) una función definida de X. Supóngase que es posible resol- 
ver y = g(x) para x obteniendo de esta forma la función inversa x = g (y). Si 
gfx) y £~'(y) son funciones univaluadas de x y y, respectivamente, se dice que la 
transformación es uno a uno. Esto es, a cada punto en el espacio muestral de X le 
corresponde un punto único del espacio muestral de y y viceversa. Si se supone la 
existencia de una transformación uno a uno y ademas que y = g(x) es una función 
creciente y diferenciable de x, se puede determinar la función de densidad de proba- 
bilidad de X en la siguiente forma: 

Debido a la existencia de una transformación uno a uno: 

F r (y) = P(Y^y) 

= P[g(X) < y] 

= P[X^g-'(y)l 
Entonces: 

Fy(y) = F x [g-\y)]. (5.80) 

Al establecer la diferencia (5.80) con respecto a y y mediante el empleo de la regla 
de la cadena, se tiene: 

,, , dF. x \g-\yy\ dx 
My) = Jx Jy 

= fxVg-\y)]j v (5.8D 

Si gfx) es una función decreciente de x, el resultado que se obtiene es el mismo con 
excepción de que la derivada de una función decreciente es negativa. De esta manera 
se puede formular la siguiente proposición: 

Teorema 5.2 Sea X una variable aleatoria continua con función de densidad de 
probabilidad f x (x> y defínase Y = g(X). Si y = gfx) y jc = g~\y) son funciones 
univaluadas, continuas y diferenciables y si y = g(x) es una función creciente o decre- 
ciente de x, la función de densidad de probabilidad de Y está determinada por: 



fy()') =Mg~ '()')] 



(5.82) 



en donde la cantidad J = \dx/dy\ recibe el nombre de Jacobiano de la transfor- 
mación. 



5.8 La distribución de una función de variable aleatoria 169 

El teorema 5.2 se obtiene a partir de una técnica de cambio de variable en una in- 
tegral definida, que ya se empleó en varias ocasiones. 

Sea X una variable aleatoria continua con una función de densidad de probabili- 
dad f(x; fi, d, a), donde fi, 6, y a son los parámetros de localización, escala y 
forma respectivamente. El efecto del parámetro de forma a puede hacerse más claro si 
se considera la distribución de la variable aleatoria estandarizada Y = (X - (i)/0, 
la cual no contiene a/uyí. Mediante el empleo de (5.82), la función de densidad de 
probabilidad de Y es: 



fr(y) = efAOy + /*), 



(5.83) 



ya que la relación inversa es x = $y + ¡x y el Jacobiano está dado por dx/dy = 
6. En particular, sea X una variable aleatoria con distribución gama y cuya función 
de densidad se establece por (5.45). La función de densidad de Y = X/Q es: 



fc(yia) = í ^r/"- , exp(-;y), y > 0. 
I (a) 



(5.84) 



De manera similar, si A' es una variable aleatoria de Weíbull con función de densi- 
dad de probabilidad dada por (5.61), la densidad de Y = X/d es: 



■f w (y; a) = ay a 'exp( -y"), y>0. 



(5.85) 



Si no existe un parámetro de forma y si fi y d son la media y la desviación están- 
dar de X, respectivamente, entonces (5.83) dará origen a una función de densidad 
libre de parámetros con media cero y desviación estándar uno. Un ejemplo de lo an- 
terior es la función de densidad de probabilidad normal estandarizada. 

Ejemplo 5. 12. Si la variable aleatoria X se encuentra distribuida de manera unifor- 
me en el intervalo (0,ir), debe obtenerse la función de densidad de probabilidad de 
la función Y = c sen (X), para cualquier constante positiva c. 

Nótese que la relación y = c sen fx) es una función estrictamente creciente de x 
en el intervalo (0, ir/2) y estrictamente decreciente en el intervalo {n/2, ir). Cuan- 
do la relación funcional es creciente en alguna parte del dominio de la variable alea- 
toria original y decreciente para el resto, la función de densidad de probabilidad de 
interés puede obtenerse al tratar cada parte de manera separada y sumar los resulta- 
dos. De acuerdo con lo anterior, los intervalos (0, ir/2) y (-jt/2, ir) deben manejar- 
se en forma separada. 

La relación inversa es: 



x = sen ( v/c), 
y el Jacobiano de la transformación es: 



1 



(r - y) 



-1/2 



■1/2 



170 Algunas distribuciones continuas de probabilidad 



Dado que la densidad de X es: 

f(x) = I/ir < x < ir, 
para el intervalo (0, rr/2), 

My) = -(c 2 -'y 2 r i/2 Os y <c, 



7T 



y para el intervalo (w/2, tt), 



r-2 _ „2\-"/2 



/ 2 (y) = -(c -r)" 

La función de densidad de probabilidad de Y es: 

fr(y) = My) + fz(y) 

^ 'r-2 _ „2l- >/ 2 



0<y :£c. 



= -(c 2 - yT"\ Osy<c. 

77 



(5.86) 



I 



Ejemplo 5. 13 Sea A" una variable aleatoria distribuida normalmente con media i¿ y 
desviación estándar <r. Obtener la función de densidad de probabilidad de Y = 
exp(X), 

La relación y = exp(x) es una función creciente y diferenciable de x. La relación 
inversa es x = ln(y), y el Jacobiano es ctc/rfy = 1/y. Por lo tanto, la densidad de Y 
es: 



f r (y;ix,(r) = 



I 



V2tt 



exp 



cry 



ln(y) - /a 



y >0. 



(5.87) 



La expresión dada en (5.87) es la función de densidad de probabilidad de lo que se 
conoce como el modelo log-normal. A pesar de que los parámetros de la densidad 
log-normal son las cantidades /j. y a, éstas no representan parámetros de localiza- 
ción o escala. Más bien son la media y la desviación estándar de la correspondiente 
variable aleatoria normal. Mientras que la variable aleatoria normal se considera, en 
muchas ocasiones, como la representante del efecto aditivo de muchos errores 
físicos pequeños, la variable aleatoria log-normal representa el efecto multiplicativo 
de éstos. La distribución log-normal se emplea en una gran variedad de aplicaciones 
que incluyen el problema de evaluar los efectos de la fatiga sobre materiales. Véase 
[1] para una presentación detallada de esta distribución. 

Existe otro método para determinar la distribución de una función de variable 
aleatoria que emplea la función generadora de momentos. Recuérdese que esta fun- 
ción, si existe, determina de manera unívoca una distribución de probabilidad. De 
esta manera, si se encuentra que una variable aleatoria tiene la misma función gene- 
radora de momentos que la de una distribución conocida, entonces la función de va- 
riable aleatoria tiene la misma distribución. 



5.9 Conceptos básicos en la generación de números aleatorios por computadora 171 



Ejemplo 5.14 Sea Z una variable aleatoria distribuida normalmente con media 
cero y desviación estándar uno. Demostrar que la distribución de: 

Y = Z 2 

es una distribución chi-cuadrado con un grado de libertad. 
Por definición, la función que genera momentos de Z 2 es: 

#M0 = £[exp(/Z 2 )] = j jxp(tz 2 )f(z)dz 

= (2tt)- ,/2 J ^ exp(íz 2 )exp(- z 2 /2)í/z 

= (2tt)- m J_ x exp[ - (z 2 /2)( 1 - 2t)]dz 



= (2tt)- ,/2 í exp 



2(1-2/)" 



<fe. 



Nótese que, excepto por una constante, el integrando de la última integral es igual al 
de la función de densidad de probabilidad de una variable aleatoria normal con me- 
dia cero y varianza (1 - 2/) " ' . Para hacer el integrando igual a una distribución nor- 
mal con media cero y varianza (1 - 2t)~ ', se multiplica tanto el numerador como 
el denominador por la desviación estándar (1 - 2t)~ l/2 , que no es otra cosa más 
que multiplicar la expresión por uno. De esta forma, 



ntzÁO = 



1 



(1 - 2í)' /2 

= (i - 2*r ,/2 



J — V2ir 



V2tt(1 - 2í) 



1/2 



exp 



2(1 - 20" 



dz 



dado que el integrando es una función de densidad de probabilidad normal y por defi- 
nición, la integral desde — oo a » , es uno. La función generadora de momentos de 
Y = Z 2 es idéntica a la de la distribución chi-cuadrado con v = 1 grados de liber- 
tad; (véase (5.60)). Por lo tanto, el cuadrado de la variable aleatoria normal estándar 
tiene una distribución chi-cuadrado con un grado de libertad. 

5.9 Conceptos básicos en la generación de números 
aleatorios por computadora 

Desde el advenimiento de los sistemas de cómputo de gran escala, los experimentos 
de simulación se han convertido en técnicas muy útiles para el análisis de sistemas 
complejos que, muchas veces, se constituyen por muchos componentes interdepen- 
dientes. En la simulación de estos sistemas surge la necesidad de simular fenómenos 
aleatorios que son característicos de un sistema en especial. Por ejemplo, si un banco 
desea examinar su sistema de servicios al cliente, debe simular el flujo de clientes al 



1 



172 Algunas distribuciones continuas de probabilidad 

banco, así como también el tiempo necesario para llevar a efecto cada operación 
bancaria y estos sucesos constituyen eventos aleatorios. 

Para atacar este tipo de problemas se supone, en general, una distribución de 
probabilidad apropiada para cada fenómeno y se genera una secuencia de valores 
para la correspondiente variable aleatoria por computadora. Puesto que estas se- 
cuencias se generan mediante el empleo de algoritmos numéricos que pueden re- 
petirse exactamente, estas secuencias de números no constituyen, en un sentido 
estricto, números aleatorios. Sin embargo, estas secuencias exhiben suficientes pro- 
piedades aleatorias para emplearse con éxito en muchas aplicaciones. 

El propósito de esta sección no es estudiar las propiedades de los números aleato- 
rios generados por computadora ni determinar la forma más eficiente de hacerlo. 
Más bien el propósito es familiarizar al lector con las posibles formas de generar nú- 
meros aleatorios a partir de alguna de las distribuciones de probabilidad, discretas y 
continuas, que se han estudiado. 

La distribución uniforme sobre el intervalo (0, 1) juega un papel muy importante 
en la generación de números aleatorios por computadora. Para finalizar se establece 
y demuestra el siguiente teorema: 

Teorema 5.3 Para cualquier variable aleatoria continua X, la función de distribu- 
ción acumulativa F(x; 0) con parámetro 6 se puede representar por una variable 
aleatoria U, la cual se encuentra uniformemente distribuida sobre el intervalo unitario. 

Demostración: Dado que por definición la función de distribución acumulativa de 
X está dada por: 

F(x; 6) = \ _J(t, 8)dt, 

a cada valor de x le corresponde un valor de F(x; 6) que necesariamente se en- 
cuentra en el intervalo (0, 1). Además, F(X; 0) también es una variable aleatoria en 
virtud de la aleatoriedad de X. Para cada valor u de la variable aleatoria U, la fun- 
ción u = F(x; 6) define una correspondencia uno a uno entre U y X siendo la rela- 
ción inversa x = F "'(«). Al tenerla = dF(x; 6) = f(x; 0)dx, el Jacobiano de la 
transformación es: 



J = 



du 



= lñx;d)V l = lf(F-\u);d)]-\ 



La función de densidad de probabilidad de la variable aleatoria U, mediante el 
empleo de (5.82), es: 

gU<) =ñF-\u);d)[ñF\uy,e)V x 
= 1, . 0<w< 1. 

La esencia del teorema 5.3 recae en el hecho de que, para muchos casos, es posible 
determinar de manera directa el valor de x que corresponde al valor de u de las va- 
riables aleatoria X y U, respectivamente, de manera tal que F(x; 6) = u. Por esta ra- 



5.9 Conceptos básicos en la generación de números aleatorios por computadora 173 

zón todos los sistemas de cómputo tienen en su estructura la capacidad de generar 
valores aleatorios a partir de una distribución uniforme sobre el intervalo unitario 
(0, 1). De hecho, muchos paquetes estadísticos para computadora, como SAS, SPSS 
y IMSL, proporcionan al usuario la oportunidad de generar números aleatorios a 
partir de una distribución dada. Se ilustrará el uso del teorema 5.3 en la generación 
de números aleatorios para algunas distribuciones de probabilidad especificas. 



5.9.1 Distribución uniforme sobre el intervalo (a, b) 

La función de densidad de probabilidad es: 

/(*; a, b) = l/(b -a), a^x^b. 

Para generar un número aleatorio x, a < x < b, primero se genera un valor alea- 
torio u a partir de (0, 1), se iguala a la función de distribución acumulativa, se in- 
tegra y se resuelve para el límite superior x. De esta forma: 






(b - a)'' dt = u 



x — a 



x = u(b - a) + a, a<x<b (5.88) 



5.9.2 La distribución de Weibull 

La función de densidad de probabilidad es: 



f(x;a,8) = —x"- , exp[-(x/er], x>0. 
a 

Para generar números aleatorios de Weibull x > 0, se resuelve la ecuación 

j- a ¡ n t a ^x P [-(t/er]dt = u 



±)l-L ]t ^-u/m 



= u 

o 



x = 6 



1 - exp[-(A-/0) Q ] = m, 
1 



ln 



I - u 



Mol 

(5.89) 



174 Algunas distribuciones continuas de probabilidad 

Dado que para a = 1 , la distribución de Weibull se reduce a la exponencial, pueden 
generarse números aleatorios para una distribución exponencial mediante (5.89) 
con a = 1 . 

5.9.3 La distribución de Erlang 

La función de densidad de probabilidad es: 

f(x; a, d) = — — x- 'exp( -x/0), x>0, § 

r(a)r i 

í 

en donde a es un entero positivo. Recuérdese que la variable aleatoria de Erlang es % 
la suma de a variables aleatorias independientes distribuidas exponencialmente. Por 
lo tanto, un número aleatorio de Erlang es la suma de a valores aleatorios exponen- 
ciales, en donde cada valor se genera mediante (5.89). 

5.9.4 La distribución normal 

La función de distribución acumulativa normal es: 

v^/-^ xp R(^). 



dt = u 



no puede resolverse, en forma cerrada, para x. De manera alternativa, puede de- 
mostrarse que si (/, y U 2 son dos variables aleatorias independientes con distribu- 
ción uniforme sobre el intervalo unitario, entonces 

Z, = (-2 1ní/ 1 ) ,/2 sen(27r(/ 2 ) y (5 90) 

Z 2 = (-2 1ní/,) 1/2 cos(2n-(/ 2 ) 

son dos variables aleatorias normales estandarizadas e independientes. 

5.9.5 La distribución binomial 

Para generar números aleatorios a partir de una distribución binomial con función 
de probabilidad se considerará lo siguiente: la variable aleatoria binomial es vista 
como la suma de n resultados de un proceso de Bernoulli descrito por: 

p(x; n, p) = ^— - p\\ - p) n '\ x = 0, 1, 2, ..., n 

(n - x)\x\ 

{ 1 con probabilidad p 

(.0 con probabilidad (1 - p). 

Se puede obtener un número aleatorio binomial mediante la suma de n de los valo- 
res de la variable aleatoria Y, en donde cada valor se determina mediante: 

f 1 si < w < o 
y = (5.91) 

lO si p < u < I, 



Ejercicios 175 

donde u es un número aleatorio uniforme sobre el intervalo unitario. Esto es, se ge- 
neran n números aleatorios a partir del intervalo unitario, se convierten a unos y ce- 
ros de acuerdo con (5.91) y la suma de los unos en esta secuencia es el número aleato- 
rio binomial. 



5.9.6 .. La distribución de Poisson 

Recuérdese que la probabilidad de tener x ocurrencias en un intervalo de tiempo t 
está definida por: 



p(x; t) = 



(w) J exp( - vt) 



x = 0, 1,2,..., 






donde v es la frecuencia constante de ocurrencia, y X = vi es el número promedio 
de éstas. Como la ocurrencia en el tiempo de dos eventos independientes de Poisson 
se encuentra distribuida exponencialmente, se puede generar un número aleatorio 
de Poisson x mediante la generación sucesiva de números aleatorios exponenciales 
por (5.89) para a = 1. El proceso se continúa hasta que la suma de los valores x + 1 
sea mayor que el intervalo de tiempo t. Por lo tanto, el número aleatorio de Poisson 
es x. 



1 
">'¡ít 

T 



Referencias 

1. A. Aitchison and J. A. C. Brown, The log-normal distribution, Cambridge Univ. 
Press, Cambridge, England, 1957. 

2. K. V. Bury, Statistical models in applied science, Wiley, New York, 1975. 

3. D. J. Davis, An analysis of some failure data, J. of the Amer. Statistical Assoc. 47 
(1952), 113-150. 

4. D. G. Malcolm, J. H. Roseboom, E. C. Clark, and W. Fazar, Application of a 
technique for research and development program evaluation, Operations Research 7 
(1959), 646-658. 

5. E. S. Pearson and H. O. Hartley, Eds., Biometrika tables for statisticians, Vol. I, 
3rd ed., Cambridge Univ. Press, Cambridge, England, 1966. 

6. K. Pearson, Tables of the incomplete beta function, Biometrika Office, University 
College, London, 1948. 

7. K. Pearson, Tables ofthe incomplete gamma function, Biometrika Office, University 
College, London, 1957. 

8. H. C. S. Thom, Direct and inverse tables of the gamma distribution, Environmental 
Data Service, Silver Spring, Md., 1968. 

9. W. Weibull, A statistical distribution function of wide applicability, J. Appl. Mech. 
18 (1951), 293-302. 



Ejercicios 

5.1. En la misma gráfica, dibujar las distribuciones normales N(0, 5) y N(0, 4) 

5.2. Sea X ~ N (50, 10). Determinar las siguientes probabilidades: 



176 Algunas distribuciones continuas de probabilidad 



a) P(X<AQ) 

b) P(X<(>5) 

c) P(X>55) 



d) 
e) 
J) 



P(X > 35) 
/>(40 < X < 45) 
/>(38 < X < 62) 



5.3. Sea X ~ N(200, 20). Determinar las siguientes probabilidades: 



a) P(\S5<X<2\0) 

b) /'(215<A'<250) 



c) P(X > 240) 

d) P(X> 178) 



5.4. Sea X ~ N( - 25, 10). Encontrar los valores de x que corresponden a las siguientes pro- 
babilidades: 



a) P(X<x) = 0.1251 

b) P(X < x) = 0.9382 



c) P(X > x) = 0.3859 

d) PiX > x) = 0.8340 



5.5. Sea X ~ N(10, 5). Encontrar los valores de x que corresponden a las siguientes proba- 
bilidades: 



a) P(X < x) = 0.05 

b) P(X < x) = 0.95 

c) P(X < x) = 0.99 



d) P(X<x) = 0.01 

e) P(X < x) = 0.025 

f) PiX < x) = 0.975 



5.6. Sea A" ~ N(i¿,cr). Determinar la media y la varianza de X si los cuanti les son x l)4 = 
50 y .r B .„ = 100 

5.7. Una universidad espera recibir, para el siguiente año escolar, 16 000 solicitudes de 
ingreso al primer año de licenciatura. Se supone que las calificaciones obtenidas por los 
aspirantes en la prueba SAT se pueden calcular, de manera adecuada, por una distribu- 
ción normal con media 950 y desviación estándar 100. Si la universidad decide admitir 
al 25% de todos los aspirantes que obtengan las calificaciones más altas en la prueba 
SAT, ¿cuál es la mínima calificación que es necesario obtener en esta prueba, para ser 
admitido por la universidad? 

5.8. Una fábrica produce pistones cuyos diámetros se encuentran adecuadamente clasifica- 
dos por una distribución normal con un diámetro promedio de 5 cm y una desviación es- 
tándar igual a 0.001 cm. Para que un pistón sirva, su diámetro debe encontrarse entre 
4.998 y 5.002 cm. Si el diámetro del pistón es menor que 4.998 se desecha; si es mayor 
que 5.002 el pistón puede reprocesarse. ¿Qué porcentaje de pistones servirá? ¿Qué por- 
centaje será desechado? ¿Qué porcentaje será reprocesado? 

5.9. La demanda mensual de cierto producto A tiene una distribución normal con una media 
de 200 unidades y desviación estándar igual a 40 unidades. La demanda de otro produc- 
to B también tiene una distribución normal con media de 500 unidades y desviación es- 
tándar igual a 80 unidades. Un comerciante que vende estos productos tiene en su alma- 
cén 280 unidades de A y 650 de B al comienzo de un mes, ¿cuál es la probabilidad de 
que, en el mes, se vendan todas las unidades de ambos productos? Puede suponerse in- 
dependencia entre ambos eventos. 

5.10. El peso de cereal que contiene una caja se aproxima a una distribución normal con una 
media de 600 gramos. El proceso de llenado de las cajas está diseñado para que de entre 
100 cajas, el peso de una se encuentre fuera del intervalo 590-610 gramos. ¿Cuál es el va- 
lor máximo de la desviación estándar para alcanzar este requerimiento? 

5.11. En una tienda de descuento la demanda diaria de acumuladores para automóvil se cal- 
cula mediante una distribución normal con una media de 50 acumuladores que tienen 



Ejercicios 177 

una desviación estándar de 10. En dos días consecutivos se venden 80 y 75 acumulado- 
res respectivamente. Si estos días son típicos, ¿qué tan probable es, bajo las suposi- 
ciones dadas, vender 80 o más y 75 o más acumuladores? 

5.12. Un fabricante de aviones desea obtener remaches para montar los propulsores de sus 
aviones. El esfuerzo a la tensión mínimo necesario de cada remache es de 25 000 Ib. Se 
pide a tres fabricantes de remaches (A, ByQ que proporcionen toda la información 
pertinente con respecto a los remaches que producen. Los tres fabricantes aseguran que 
la resistencia a la tensión de sus remaches se encuentra distribuida, de manera aproxima- 
da, normalmente con un valor medio de 28 000, 30 000 y 29 000 Ib, respectivamente. 

a) ¿Tiene el fabricante la suficiente información para hacer una selección? 
¿Por qué? 

b) Supóngase que las desviaciones estándar para A, B y C son 1 000, 1800 y 1200, res- 
pectivamente. ¿Cuál es la probabilidad de que un remache producido ya sea por A, B 
o C no reúna los requisitos mínimos? 

c) Si usted fuera el fabricante de av : one*\ ¿podría elegir entre A, B y C, con base en su 
respuesta al inciso bfl ¿Por qué? 

5.13. Un fabricante de escapes para automóviles desea garantizar su producto durante un 
periodo igual al de la duración del vehículo. El fabricante supone que el tiempo de dura- 
ción de su producto es una variable aleatoria con una distribución normal, con una vida 
promedio de tres años y una desviación estándar de seis meses. Si el costo de reemplazo 
por unidad es de $10, ¿cuál puede ser el costo total de reemplazo para los primeros dos 
años, si se instalan 1 000 000 unidades? 

5.14. El tiempo necesario para armar cierta unidad es una variable aleatoria normalmente 
distribuida con una media de 30 minutos y desviación estándar igual a dos minutos. De- 
terminar el tiempo de armado de manera tal que la probabilidad de exceder éste sea de 
0.02. 

5.15. Un periódico llevó a cabo una encuesta entre 400 personas seleccionadas aleatoriamen- 
te, en un estado, sobre el control de armas. De las 400 personas, 220 se pronunciaron en 
favor de un estricto control. 

a) ¿Qué tan probable resulta el hecho de tener 220 o más personas a favor del control de 
armas, si la población en este estado se encuentra dividida en opinión de igual manera? 

b) Supóngase que se encuesta a 2000 personas teniendo la misma proporción de éstas a 
favor del control de armas, que la del inciso anterior. ¿Cómo cambiaría su respuesta 
al inciso a)l 

c) Si el número de personas encuestadas es de 10 000, ¿cuál es la probabilidad de tener 
una ocurrencia diferente a la del inciso b)l 

5.16. Una prueba de opción múltiple contiene 25 preguntas y cada una de éstas cinco op- 
ciones. ¿Cuál es la probabilidad de que, al contestar de manera aleatoria cada pregunta, 
más de la mitad de las respuestas sea incorrecta? 

5.17. Una organización llevó a cabo una encuesta entre 1 600 personas, seleccionadas de ma- 
nera aleatoria de toda la población del país, para conocer su opinión con respecto a la 
seguridad en las plantas de energía nuclear. De este grupo, el 60% opinó que las plantas 
de energía nuclear tienen muy poca seguridad. Con base en estos resultados ¿existe algu- 
na razón para dudar que la población en general tiene una opinión neutral con respecto 
a este asunto? 



178 Algunas distribuciones continuas de probabilidad 

5.18. Sea X una variable aleatoria distribuida binomialmente. 

a) Para n = 15, p = 0.25 y n = 15 y p = 0.5, calcular las siguientes probabilidades: 
P( X = 8), P(X < 3), P{X < 7), P(X > 9), y P(X > 12). 

£»> Aproxímense los valores de las probabilidades anteriores mediante el empleo de la 
distribución normal. 

c) Repetir los incisos a) y b) para n = 25 y comparar los resultados. 

5.19. Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). 

a) ¿Cuál es la probabilidad de que X tome un valor que se encuentre a una desviación 
estándar de la media? 

b) ¿Puede tomar A" un valor que se encuentre a dos desviaciones estándar de la media? 

5.20. Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). ¿Cuál 
es la máxima distancia, en términos de la desviación estándar, a la que puede encontrar- 
se un valor X a partir de la media? 

5.21. Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). Si E(X) 
= 10 y VarfX) = l2, encontrar los valores de a y de b. 

5.22. Supóngase que la concentración de cierto contaminante se encuentra distribuida de ma- 
nera uniforme en el intervalo de 4 a 20 ppm (partes por millón). Si se considera como tó- 
xica una concentración de 15 ppm o más, ¿cuál es la probabilidad de que al tomarse una 
muestra la concentración de ésta sea tóxica? 

5.23. Sea X una variable aleatoria con distribución beta y parámetros a = 3 y /3 = 1. 

a) Graficar la función de densidad de probabilidad. 

b) Obtener la media, la varianza, la desviación media, el coeficiente de asimetría y la 
curtosis relativa. 

c) ¿Cuál es la probabilidad de que A" tome un valor que se encuentre dentro de una des- 
viación estándar a partir de la media? ¿A dos desviaciones estándar? 

d) Determinar los cuantiles de esta distribución. 

5.24. Si los parámetros de la distribución beta son enteros, puede demostrarse que la función 
de distribución acumulativa beta se encuentra relacionada con la distribución binomial 
en la siguiente forma: 

p(x< P) = /,(«./» = ij-JjL^M - pt->, 

en donde « = a + /3— 1 y < /? < 1 . Si A' es una variable aleatoria con una 
distribución beta con parámetros a = 2 y /3 = 3, emplear la relación anterior para 
obtener P(X < 0.1), P(X < 0.25), y P(X < 0.5). 

5.25. Tomando como referencia el ejercicio anterior, determinar la probabilidad de que X 
tome un valor que se encuentre dentro de un intervalo igual a una desviación estándar 
de la media y, posteriormente, de un intervalo igual a dos desviaciones estándar. 

5.26. La proporción de unidades defectuosas en un proceso de fabricación es una variable 
aleatoria que se encuentra aproximada por una distribución beta con a = 1 y = 20. 

a) ¿Cuál es el valor de la media y de la desviación estándar? 

b) ¿Cuál es la probabilidad de que la proporción de artículos defectuosos sea mayor que 
un 10%? ¿Mayor que un 15%? 



I 



Ejercicios 179 



5.27. Aproxime su respuesta al inciso b) del ejercicio anterior mediante el empleo de la aproxi- 
mación normal dada por la expresión (5.44). 

5.28. La competencia en el mercado de una compañía de computadoras varia de manera alea- 
toria de acuerdo con una distribución beta con o = 10 y /3 = 6. 

a) Granear lá función de densidad de probabilidad. 

b) Encontrar la media y la desviación estándar. 

c) Obtener la probabilidad de que la competencia en el mercado sea menor que la media. 

d) Encontrar la probabilidad de que la competencia en el mercado se encuentre dentro 
de una desviación estándar de la media y, posteriormente, de un intervalo igual a dos 
desviaciones estándar de la media. 

5.29. Sea X una variable aleatoria con distribución gama con a = 2 y = 50. 

a) ¿Cuál es la probabilidad de que X tome un valor menor al valor de la media? 

b) ¿Cuál es la probabilidad de que X tome un valor mayor de dos desviaciones estándar 
con respecto a la media? 

c) ¿Cuál es la probabilidad de que X tome un valor menor al de su moda? 

5.30. Sea X una variable aleatoria con dlitribución gama y a = 2y0 = 100. 

a) Graficar la función de densidad de probabilidad. 

b) Encontrar la probabilidad de que, primero, X tome un valor dentro de un intervalo 
igual a una desviación estándar de la media y, posteriormente, de un intervalo igual a 
dos desviaciones estándar de la media. 

c) ¿Cómo cambiarían sus respuestas a la parte b) si = 200? 

5.31. La edad a la que un hombre contrae matrimonio por primera vez es una variable aleato- 
ria con distribución gama. Si la edad promedio es de 30 años y lo más común es que el 
hombre se case a los 22 años, encontrar los valores de los parámetros a y 0, para esta 
distribución. 

5.32. La información que a continuación se presenta es una tabulación parcial de la función 
gama incompleta tal como se encuentra definida por (5.55) para a = 16. 



2.5 



3.0 



3.5 



4.0 



4.5 



/(«, 15) I 0.0082 0.0487 0.1556 0.3306 0.5333 0.7133 



5.0 



5.5 



6.0 



6.5 



7.0 



/(«, 15) 1 0.8435 0.9231 0.9656 0.9858 0.9946 

Para = 10, comparar estas probabilidades con las que se proporcionaron al emplear 
una aproximación normal. 

5.33. Mediante el empleo de la función generadora de momentos de la distribución gama, en- 
contrar expresiones para la media y la varianza. 

5.34. La duración de cierto componente es una variable aleatoria con distribución gama y pa- 
rámetro a = 2. 

a) Obtener la función de confiabilidad. 

b) Para = 20, obtener la frecuencia de falla y granearla como una función de /. 

c) Si = 20, ¿cuál es la confiabilidad del componente en / = 80? 

5.35. Para armar un articulo se necesitan cuatro etapas. Si el tiempo total necesario para ar- 
mar un artículo, en horas, es una variable aleatoria con distribución gama y parámetro 
de escala 0=2, ¿cuál es la probabilidad de armar un artículo en menos de 15 horas? 



180 Algunas distribuciones continuas de probabilidad 

5.36. Sea X una variable aleatoria con distribución de Weibull y parámetros a = 2y0 = 20. 

a) Graficar la función de densidad de probabilidad. 

b) Obtener la probabilidad de que X tome un valor mayor que la media. 

c) Obtener la probabilidad de que X tome un valor que se encuentre en un intervalo 
igual a una desviación estándar, y después en un intervalo igual a dos desviaciones es- 
tándar de la media. 

5.37. El tiempo de duración de un sistema se encuentra aproximado por una distribución de 
Weibull con a = 2 y 6 = 50. 

a) Obtener la media y los deciles de esta distribución. 

b) Obtener la confiabilidad de este sistema en / = 75. 

5.38. Un sistema está formado por dos componentes independientes A y B. El sistema perma- 
necerá operando mientras uno o ambos componentes funcionen. Si el tiempo de vida de 
la componente A es una variable aleatoria de Weibull con a = 1/2 y 6 = 10, y si el 
tiempo de vida de B es también una variable de Weibull con a = 2 y 8 — 12. ¿cuál es la 
probabilidad de que el sistema trabaje más de 20 horas? 

5.39. Sea X una variable aleatoria con distribución exponencial. 

a) ¿Cuál es la probabilidad de que X tome un valor mayor que la media? 

b) Cuáles son las probabilidades de que X tome un valor que se encuentre en un interva- 
lo igual a una desviación estándar, primero, y en un intervalo igual a dos des- 
viaciones estándar de la media? 

5.40. Si la frecuencia con que falla un componente es constante y la confiabilidad de éste tiene 
un valor en / = 55 de 0.4, 

a) Obtener la función de densidad de probabilidad. 

b) Obtener la confiabilidad del componente para / = 100. 

5.41. Un dispositivo tiene una frecuencia de falla constante h(t) = 10~ 2 por hora. 

a) ¿Cuál es la confiabilidad del dispositivo para / = 200 horas? 

b) Si 500 de estos dispositivos fallan de manera independiente, ¿cuál es el número espe- 
rado de fallas entre éstos, después de 200 horas? 

5.42. El compresor de una unidad de aire acondicionado tiene una frecuencia de falla h(t) = 
2 x 10'Vpor hora. 

a) ¿Cuál es la función de confiabilidad del compresor? 

b) ¿Cuál es la confiabilidad del compresor para / = 15 000 horas? 

c) ¿Cuál es la vida media del compresor? 

d) ¿Cuál es la mediana de su duración? 

5.43. Sea X una variable aleatoria con distribución uniforme en el intervalo (0, 1). Demostrar 
que la variable aleatoria Y = -- In(AT) tiene una distribución chi-cuadrado con dos 
grados de libertad. 

5.44. Si X es una variable aleatoria con una distribución exponencial y parámetro 9, obtener 
la distribución de Y = (X - 9)19. 

5.45. Si A" es una variable aleatoria con una distribución de Weibull y parámetros a y 6, obte- 
ner la distribución de Y = X a . 

5.46. Seleccione una distribución de probabilidad discreta y una continua de la sección 5.9 y 
genere dos muestras aleatorias de 50 números aleatorios cada una. Para cada caso agru- 



Apéndice 181 

pe los datos y obtenga las frecuencias relativas. Calcule la media y la desviación estándar 
de cada una de las muestras y compare los resultados con los que se obtienen de manera 
teórica. 



APÉNDICE 

Demostración de que la expresión (5.1) es una función de densidad de probabilidad. 

El que la función sea no negativa se satisface, ya que f(x; ¡x, <r) > para -x < x 
<oc 5 — x < ¿t < x y o->0. Para demostrar que: 



í: 



f{x; ¡x, <r)dx = 1 , 



sea: 



/ = 



V277I 



i 



exp 



-(.v - ¿072o- 2 



dx 



el valor de la integral y apliqúese la transformación lineal y = (v — /x)/o- de ma- 
nera tal que x = ay + ¡x y dx = crdy. Esto da como resultado: 



/ = 



1 



V2< 



7T 



l 



exp(-y 7 /2)dy. 



Si puede demostrarse que f = 1 , puede deducirse que / = 1 puesto que f(x; /x, 
o-) tiene una valor positivo. De acuerdo con lo anterior: 



I 2 



-Uf exp(-y 2 /2)dy-^=¡ exp(-z 2 /2)dz 
/__/_„ exp -(y 2 + z 2 )/2 dydz, 



2tt 



en donde se ha escrito el producto de las dos integrales como una doble integral ya 
que las funciones de z son constantes con respecto a y y viceversa. Al cambiar de 
coordenadas rectangulares, representadas por x y y, a coordenadas polares r y 6, en 
donde y — r eos 6 y z = r sen 9. Esto es: 

y~ + z~ = r~ eos 6 + r'sen" 6 - r~, 

y el elemento de área dydz, en coordenadas rectangulares se reemplaza por rdrdQ en 
coordenadas polares. Dado que los límites ( - x, x) tanto para y como para z gene- 
ran el plano completo yz, el plano correspondiente a r y a 6 se genera mediante el 
empleo de los límites (0,27r) para 6 y (0,x) para r. De esta forma se tiene: 



/2 = T-[ í exp(-r 2 /2)rdrd0 

2tt jo jo 



182 Algunas distribuciones continuas de probabilidad 



2-ir Jo Jo 



exp( - r 2 /2)rdr 



\2ir 



2n 



t-exp(-r 2 /2)] 



y, por lo tanto, (5.1) es una función de densidad de probabilidad. 



APÉNDICE 

Demostración del teorema 5.1 

La demostración que aquí se presenta se basa en el hecho de que una función genera- 
dora de momentos define, de manera única, a una distribución. Se demostrará que 
la función generadora de momentos de atiende a una distribución normal conforme 
«-^°°. X es una variable aleatoria binomial: 

m x (t) = 1(1 -p) + pe']"- 
Entonces: 

m Y (t) = E(e' Y ) = E\ exp 
= exp 



t(X - np)/\Jnp(\ - p) 
npt/\/np(í - p) £4 exp 



tX/y/np(l - p) 



Ú exp 



donde E\ exp tX/\/np(\ - p) 



} es la 



función generadora de momentos de A" con 



argumento t/\/np(l - p). De esta forma se tiene: 



m 



Y (t) = exp -npt/\Jnp(\ - p) 



pero: 



y: 



(1 - p) + p exp 



t/Vnp(\ - p) 



exp 



-npt/y/np(l - p) 



exp 

m Y (t) = Ul - p)exp 
+ p exp 



~pt/y/np(l - p) 



-pt/y/np(\ - p) 
t pt 



yjnp(\ - p) y/np(l -p) 
(1 - p)exp 



]}' 



-pt/\Jnp(\ - p) 



+ p exp 



(1 -p)t/yJn¡A\ - P) 



Apéndice 183 



En la última expresión, al expander ambas funciones exponenciales en una serie 
de potencias, se tiene: 



(1 - p)exp 



■pt/V- 



np{\ - p) = 



(1 - ) o - P)P' + o - p)pv 

V"PO ~ P) 2 "P(1 - p) 
* = 3,4, .. 



+ términos en (- !)*(- 

n i (1 ~ p)pt j. *"* 

= (, - p) -V«P(i-,) + ^ 

*/2 



+ términos en (- 1)*I - 



k = 3,4, 



p exp 



(1 - p)t/y/np(l - p) 



t (1 - p)p/ | (1 - pfpt 1 
P \Jnp(\ - p) 2np{\ - p) 

,*/2 



+ términos en 



k = 3,4, ... 



M (1 - p)pt íl - p)f 



\Jnp{\ - p) 1n 

k = 3,4 



■ j\*/2 

+ términos en | - 



Al sustituir los resultados anteriores en m Y (t) y agrupar términos, 



m Y (t) = 



1 + - — t- términos en - 
2/2 \n 



k/2' 



k= 3,4,.... 



Dado que todos los términos que contienen a (l/n) k/2 , k = 3, 4, ..., tienen ex- 
ponentes mayores que uno, puede factorizarse el término 1 /n. De esta forma se tiene 
que: 



m r (t) = 1 + 



Por definición: 



r . . /I 

— + términos en - 

2 \n 



lím 1 + 



tf-2i/2 



A = 3,4,... 



<? ; 



entonces, conforme /z — <x, la última expresión para m Y (t) es idéntica a esta forma, 
con u representando a todo lo que se encuentra entre paréntesis de esta expresión. 
Pero conforme n — oo , todos los términos de u, excepto el primero, tienen un valor 



184 Algunas distribuciones continuas de probabilidad 

de cero, dado que todos tienen potencias positivas de n en sus denominadores. De 
acuerdo con lo anterior. 

lím m Y U) = exp(r/2). 
que es la función generadora de momentos de la distribución normal estándar. 



CAPITULO SEIS 



Distribuciones conjuntas 
de probabilidad 



6.1 Introducción 

En los capítulos anteriores se consideraron conceptos probabilísticos tomando en 
cuenta una variable aleatoria a la vez. Sin embargo, muchas veces resulta de interés 
medir más de una característica de algún fenómeno aleatorio. Por ejemplo, en un 
proceso de producción en el que se tiene determinado número de artículos produci- 
dos en un tiempo definido, es muy común que el interés no sólo recaiga en el número 
de artículos que se encuentran listos para su venta inmediatamente después de su 
fabricación, sino también en el número que, después de reprocesarse, cae en la 
categoría anterior o en el número de artículos que serán desechados. Otro ejemplo 
puede ser que, al estudiar la contaminación del agua en general, se mida la con- 
centración de varios contaminantes presentes en ésta. De los ejemplos anteriores sur- 
ge la necesidad de estudiar modelos de probabilidad que contengan más de una va- 
riable aleatoria. Estos modelos reciben el nombre de modelos multivariados, mientras 
que los modelos con una sola variable reciben el nombre de univariados. En este capí- 
tulo se examinarán conceptos generales para distribuciones de probabilidad discretas y 
continuas con dos variables aleatorias. La extensión de estos conceptos a un mayor 
número de variables aleatorias resulta directa. 



6.2 Distribuciones de probabilidad bivariadas 

En esta sección se considerarán las definiciones pertinentes para distribuciones, tan- 
to discretas como continuas, de dos variables aleatorias. 

Definición 6.1 Sean Xy Y dos variables aleatorias discretas. La probabilidad de 
que X = x y Y = y está determinada por la función de probabilidad bivariada 

p(x, y) = P(X = x, Y = y). 



186 Distribuciones conjuntas de probabilidad 

en donde p(x, y) s* para toda x, y, de X, Y, y ls x 1 v p(x, y) = 1 . La suma se 
efectúa sobre todos los valores posibles de x y y. 

Con base en la definición 6.1, la función de distribución acumulativa bivariada 
es la probabilidad conjunta de que X ss x y Y «s y, dada por 

F(x, y) = P(X^x,Y^y) = £ £ p(x„ y,). (6. 1) 



Jr,^J" Vi^V 



La expresión anterior es una extensión del caso uni variado. La función de probabili- 
dad conjunta de dos variables aleatorias da origen a las probabilidades puntuales 
conjuntas, y la función de distribución bivariada es una función escalonada cre- 
ciente para cada probabilidad puntual distinta de cero, de manera tal que X = x y 
Y = y. 

Ejemplo 6. 1 Con base en la experiencia se sabe que la proporción de unidades úti- 
les producidas por un proceso de manufactura esp,, y las proporciones de unidades 
enviadas a reprocesar y desechadas, son p 2 yP y respectivamente. Si se supone que el 
número de unidades que se produce en un lapso dado es n y que además éstas consti- 
tuyen un conjunto de ensayos independientes de manera que P\ + p 2 + Pi = 1, 
desarrollar una expresión para la probabilidad de tener, de manera exacta, x { , x 2 y 
Xj unidades útiles, reprocesables y desechadas, respectivamente. 

Lo que se pide es una extensión de la distribución binomial univariada. A pesar 
de que existen tres resultados mutuamente excluyentes (útil, reprocesable y desecha- 
do), sólo es necesario definir dos variables aleatorias dado que, para cualquier nú- 
mero específico de cada una, la suma de las tres es n. Por consiguiente, sean A" y y las 
variables aleatorias que representan el número de unidades útiles y reprocesables, 
respectivamente, del total de unidades n. De esta manera, si X = x y Y = y, en- 
tonces el número de unidades que deben desecharse es n— x —y. Por la hipótesis de 
independencia, la probabilidad de tener una secuencia específica de resultados es 

p\pM - Px- P2)"- X ' y . 

Dado que existen n\/[x\y\(n — x - y)\] formas igualmente probables para que 
ocurra una secuencia de resultados específica, la probabilidad conjunta de tener, de 
manera exacta, x, y, y n - x-y unidades útiles, reprocesables y desechadas, respecti- 
vamente, es 

«! 

p(x,y;n, p,,p 2 ) = —r. p\p\(\ - p t - Pi)" * \ 

xly\(n-x-y)\ 

x, y = 0, 1,2, ...,«, (6.2) 

en donde p 3 = 1 - p, - p 2 . La expresión (6.2) es la función de probabilidad 
conjunta de lo que se conoce como la distribución trinomial. Los parámetros de esta 
distribución son n, p¡ y p 2 , dado que p } se determina de manera exacta si se conocen 



6.2 Distribuciones de probabilidad bivariadas 187 

p x y p 2 . La distribución trinomial se ha aplicado, de manera extensa, a situaciones en 
que existen tres resultados distintos, como en las encuestas sobre la preferencia del 
consumidor en relación a tres marcas comerciales o en encuestas de tipo político en 
que se pide la opinión con respecto a tres candidatos. 

Si existen k resultados distintos excluyen tes con probabilidades p u p 2 , ... p k , 
respectivamente.^entonces para n ensayos independientes, la distribución trinomial 
se generaliza para originar la distribución multinomial cuya función de probabilidad 
es: 



p(x,,x 2 , ...,x k -¡;n,.p l ,p 2 ,...,p t -,) = 



n\ 



x t \x 2 \ ...x k l 



P\ Pi ••• Pk 



x, r = 0, 1, 2, ..., n for i = 1, 2, ..., k, (6.3) 
en donde x k = n - *, - x 2 - •■• - **_, y p k = 1 - /?, - p 2 p k - t - 

Definición 6.2 Sean Xy y dos variables aleatorias continuas. Si existe una función 
/Ce, y) tal que la probabilidad conjunta: 



P(a < X < b, c < Y<d) 



-n 



f(x, y)dydx 



para cualquier valor de a, b, c, y den donde f(x, y) > 0, - °o < x, y < °°, y 
/-*/_« f(x, y)dydx = 1, entonces f(x, y) es la función de densidad de probabili- 
dad bivariada de Xy Y. 



La función de densidad de probabilidad de dos variables aleatorias continuas A' y 
yes una superficie en el espacio de tres dimensiones donde el volumen por debajo de 
ésta y por encima de un rectángulo específico a < X < b y c < Y < des igual a la 
probabilidad de que las variables aleatorias tomen valores iguales a los puntos que se 
encuentren dentro del rectángulo. 

La función de distribución bivariada acumulativa de A" y y es la probabilidad 
conjunta de que X *£ x y Y =s y, dada por: 



P(X *¿x,Y*£y) = F(x, y) = ¡_J[ñu, v)dvdu. 



(6.4) 



Por lo tanto, la función de densidad bivariada se encuentra diferenciando F(x, y) con 
respecto a x y y; es decir, 



f(x, y) = 



S 2 F(x, y) 
dxdy 



(6.5) 



Ejemplo 6.2 Sean A" y y dos variables aleatorias continuas con función de densi- 
dad de probabilidad conjunta dada por: 



f(x, y) 



(x + y) 0«jc,y« 1, 

para cualquier otro valor 



188 Distribuciones conjuntas de probabilidad 

Granear la función de densidad de probabilidad conjunta, determinar la función de 
distribución acumulativa conjunta y obtener la probabilidad conjunta de que X « 
1/2 y K« 3/4. 

La gráfica de la función de densidad conjunta se ilustra en la figura 6.1. Nótese 
que/(.¡t, y) es una función de densidad de probabilidad conjunta, dado que 

fj\x + y)dydx = \[(xy + ¿)| * = { (x + ^dx = 1. 
Entonces 



F(x, y) = (w + yj</üí/í/ = 

Jo Jo Jo 



"V + y )</// = -v>(.v + >)/2, « x, v =£ 1. 



De c^ta c orma se tiene 



Además 



^■^«H-^ 



affr, >■) 
dx 



xy + y 



fix.y) 




FIGURA 6.1 Gráfica de la función de densidad conjunta /(jc, y) = x + y 



6.3 Distribuciones marginales de probabilidad 189 



d 2 F(x,y) 

— — = X + y = f( x , y). 

dxdy 



6.3 Distribuciones marginales de probabilidad 

Es posible determinar varias distribuciones marginales para cualquier distribución 
de probabilidad que contenga más de dos variables aleatorias. Por ejemplo, siXy Y 
son variables aleatorias discretas, la suma de la función de probabilidad bivariada 
sobre todos los valores posibles de Y dará origen a la función de probabilidad univa- 
riada de X. Por otro lado, si Xy y son variables aleatorias continuas, la integración 
de la función de densidad de probabilidad bivariada sobre el intervalo completo de 
variación de Y generará la función de densidad de probabilidad univariada de X. De 
acuerdo con lo anterior, se formulan las siguientes definiciones: 

Definición 6.3 Sean X y Y dos variables aleatorias discretas con una función de 
probabilidad conjunta p(x, y). Las funciones marginales de probabilidad de A' y 
de Y están dadas por 



Px(x) = 2 P(x,y) 

y 

Priy) = 2 p(x,y), 



respectivamente. 



Definición 6.4 Sean Xy Y dos variables aleatorias continuas con una función de 
densidad de probabilidad conjunta /(je, y). Las funciones de densidad de probabili- 
dad de A' y de Y están dadas por 



f x (x) = I J(x,y)dy 



fy(y) = \_Ji 



v- y)dx, 



respectivamente. 



Para variables aleatorias continuas conjuntas, si se conoce la función de distribu- 
ción acumulativa F(x, y), las distribuciones acumulativas marginales de A" y Y se ob- 
tienen de la siguiente forma: 

P(X « x) = F x (x) = {_ \ JU, y)dydt. 



190 Distribuciones conjuntas de probabilidad 

y 



F x (x) 



= Í-J* 



(t)dt = F(jc,«). 



(6.6) 



De manera similar 



P(Y^y) = F r (y) = /'_/__/(*. Odxdt = \* J Y {t)dt = 'F(«,y). (6.7) 

Así puede determinarse la distribución acumulativa marginal de X dejando que 
7 tome un valor igual al límite superior de la función de distribución conjunta de X 
V Y. 

Ejemplo 6.3 Sean Xy y dos variables aleatorias continuas con una función de den- 
sidad de probabilidad conjunta: 



ñx, y) = 



3jc(1 — jcy) « x, y *s 1 , 



^0 para cualquier otro valor. 

Obtener las distribuciones de densidad marginal y acumulativa de A!" y Y. 
La función de densidad marginal de X es 

f x (x) = 3 | o x{\ - xy)dy = 3 Ley - ^y 
De manera similar para Y 

My) = l[x(l-xy)dx = 3^- X -^) 
La distribución acumulativa conjunta de Xy Yes 

F(x,y) = 3 J I i/(l - ttv)dvdu = 3 J luy - - 



3,11--. 



= (3 - 2y)/2. 



y 



du 

= x 2 y(3 - xy)/2, OííjsI. 
Por lo tanto, las distribuciones acumulativas marginales de X y Y están dadas por 
F X ( X ) = F(.v, 1) = .v : (3 - .v)/2, *£ x =s 1, 

y 

F Y (y) = F(l, v) = v(3 - y)/2, « y « 1, 
respectivamente. 



190 Distribuciones conjuntas de probabilidad 

y 



FAX) 



- Lj* 



(t)dt = F{x,*). 



(6.6) 



De manera similar 



Y^y) = F Y {y) = |' x /_/(*, t)dxdt = ¡[jrUW = FK y). (6.7) 



Así puede determinarse la distribución acumulativa marginal de X dejando que 
y tome un valor igual al límite superior de la función de distribución conjunta de X 
y Y. 

Ejemplo 6.3 Sean A 1 y y dos variables aleatorias continuas con una función de den- 
sidad de probabilidad conjunta: 



/(*.y) = 



3x(l - xy) «Je, y ss 1, 



LO para cualquier otro valor. 

Obtener las distribuciones de densidad marginal y acumulativa de X y Y. 
La función de densidad marginal de X es 

x-y 



í< 



f x {x) = 3 -v(l - xy)dy = 3 \xy 



3.v 1 



De manera similar para Y 



f y (y) = 3 | o jt<1 - xy)dx = 3 (^ - * y 



2 „3. 

2 3 



= (3 - 2y)/2. 



La distribución acumulativa conjunta de A" y y es 

F{x, y) = 3 J I //(l - uv)dvdu = 3 J luy - - 



V 



í/m 



= .v 2 y(3 - .vy)/2, =£ jc, y « 1. 
Por lo tanto, las distribuciones acumulativas marginales de Xy y están dadas por 
F x (x) = F{x, 1) = .v 2 (3 - x)/2, € .v =s 1, 

y 

/>(y) = F(l, y) = y(3 - y)/2, ^ v « 1 , 
respectivamente. 



6.4 Valores esperados y momentos para üistriOuaones Divariaaas íyi 

6.4 Valores esperados y momentos para distribuciones bivariadas 

En esta sección se tratarán los conceptos de valor esperado y momentos para distri- 
buciones conjuntas de probabilidad. 

Definición 6.5 Sean Xy Y dos variables aleatorias que se distribuyen conjunta- 
mente. El valor esperado de una función de A" y de Y, g(x, y), se define como 

E[ g (X,Y)] = 22*(*.:y)pC*.y) 

* y 

si X y Y son discretas, o 

E[g(X,Y)} = j J_g(x,y)f(x,y)dydx 

si Xy y son continuas, en aondepOc, y)yf(x, v)son las funciones de probabilidad y 
de densidad de probabilidad conjuntas, respectivamente. 

Sin pérdida de generalidad, se restringirá la presentación al caso continuo. 
Como consecuencia de la definición 6.5, el r-ésimo momento de -Y alrededor del cero 
es 



De manera similar 



E(X r ) = j J x x r f(x, y)dydx 
= \ jj x (x)dx. 

E(Y') = \_J r f Y {y)dy. 



(6.8) 



(6.9) 



El r y s-ésimo momento producto de X y Y alrededor del origen es: 
E(X'Y 5 ) = J j jYfix, y)dydx, 



(6.10) 



y alrededor de las medias es 

E{{X - iL X y(Y - Mr) 1 } = j J _ Cv - (¿xY (y - nrYA*. y)dydx, (6. 1 1) 

en donde rys son enteros, no negativos. Nótese que el r-ésimo momento de A" alre- 
dedor del cero se obtiene de (6.10) con s = 0. De manera similar, el r-ésimo momen- 
to central de X puede determinarse a partir de (6.1 1) con s = 0. 

De particular importancia es el momento producto alrededor de las medias cuan- 
do r = s = 1 . Este momento producto recibe el nombre de covarianza de Xy Y, y se 



ÜÜffl 
i:- 



192 Distribuciones conjuntas de probabilidad 

encuentra definido por 

Cov(X, Y) = E{(X - fi x )( Y - n r )\. (6. 12) 

Al igual que la varianza, que es una medida de la dispersión de una variable aleato- 
ria, la covarianza es una medida de la variabilidad conjunta de Jf y de Y. De esta 
forma, la covarianza es una medida de asociación entre los valores de A" y de y y sus 
respectivas dispersiones. Si, por ejemplo, se tiene una alta probabilidad de que valo- 
res grandes de X se encuentren asociados con valores grandes de Y, la covarianza 
será positiva. Por otro lado, si existe una alta probabilidad de que valores grandes de 
A" se encuentren asociados con valores pequeños de y o viceversa, la covarianza será 
negativa. Se demostrará posteriormente que la covarianza es cero si X y Y son 
estadísticamente independientes. 

Desarrollando el miembro derecho de (6.12) se tiene 

E{(X - ¿ X )(Y - Mk )} = E[XY - Xn r - ».v + n xl i r ] 

= E(XY) - m.Mk; 
de esta forma 

CovlX, Y) = E(XY) - E{X)E(Y). (6.13) 

Si la covarianza de X y de y se divide por el producto de las desviaciones están- 
dar de X y de Y, el resultado es una cantidad sin dimensiones que recibe el nombre 
de coeficiente de correlación y que se denota por p(X, Y):* 

p(X, Y) = Cov(X, Y)/<r x <r Y . (6. 14) 

Se puede demostrar que el coeficiente de correlación se encuentra contenido en el in- 
tervalo - 1 sps 1 . De hecho p es la covarianza de dos variables aleatorias estan- 
darizadas X' y Y' en donde X' = (X - h x )/<t x y Y' = (Y - y. Y )ld Y . Esto sig- 
nifica que el coeficiente de correlación es sólo una medida estandarizada de la aso- 
ciación lineal que existe entre las variables aleatorias X y Y en relación con sus 
dispersiones. El valor p = indica la ausencia de cualquier asociación lineal, 
mientras que los valores - 1 y + 1 indican relaciones lineales perfectas negativa y 
positiva, respectivamente. En este punto es necesario señalar que debe rechazarse 
cualquier otra interpretación de la palabra "correlación". Después se expondrá con 
detalle el coeficiente de correlación cuando se estudie el análisis de regresión. 

Ejemplo 6.4 Sean X y y dos variables aleatorias con una función de densidad con- 
junta de probabilidad. 



./U.v) 



- (a + y)exp( -a) x > 0. < y < 



para cualquier otro valor. 
* Se omitirá la identificación de las variables aleatorias cuando sea necesario. 



6.4 Valores esperados y momentos para distribuciones bivariadas 193 
Obtener la covarianza y el coeficiente de correlación de A" y de Y. 
Si se toman los valores esperados apropiados, se tiene 

E(X) = -JJ u (x 2 + xy)t\p(-x)dydx 



2 r 

= - I (.v 2 + x/2)exp(-x)dx 

= - x 2 e\p(-x)dx + - xe\p(-x)dx 

3 Jo 3 Jo 



3 

= 2T(3) £(2) 
3 + 3 

= 5/3: 

-> r f 



E(X ¿ ) = - I I (.v 3 + .vV)exp(-.vWví/.v 

3 Jo Jo 

2 r i r 

- x 3 exp( -*)í¿c + - .v 2 exp(-.v)í¿r 

3 Jo 3 Ju 



2H4) r<3) 

= 14/3; 



E(Y) = - í Uv + y 2 )cxp(-x)dydx 
3 Jo Jo 

ir ir 

= - xexp(-.v)í/j: + - exp(-,v)í/jr 
3 Jo 9 Jo 

_ H2) | 2 

3 + 9 

= 5/9: 

E(Y 2 ) ==-\ i (.vv : + v')exp(-jrWví/.v 

3 J» Jo 

I .v exp( ~x)dx + - exp(-.v)</.v 

Jo 6 Jo 



2 f- 

9 

2F<2) I 



9 6 

7/18: 



194 Distribuciones conjuntas de probabilidad 

E(XY) = !J o J o <* 2 y + xy 2 )exp(-x)dydx 

\ r 2 p 

= - I x 2 exp( - x)dx + - \ x exp( - x)dx 
3 Jo 9 Jo 

= n3) + 2T(2) 
3 9 

= 8/9. 
Por lo tanto 

Cov(X,Y) = E(XY) - E(X)E(Y) = 8/9 - (5/3)(5/9) = -1/27. 
Dado que 

Var(A-) = E(X ¿ ) - E 2 (X) = 17/9 

y 

Var(Y) = £(y 2 ) - E 2 (Y) = 13/162, 
el coeficiente de correlación es 

- 1 /27 
p(^, K) = 7 = = -0.0951. 

V(17/9)(13/162) 



6.5 Variables aleatorias estadísticamente independientes 

En el capítulo dos se mencionó que dos eventos son estadísticamente independientes si 
su probabilidad conjunta es igual al producto de sus probabilidades marginales. En esta 
sección se extenderá el concepto de independencia a variables aleatorias. A fin de asegu- 
rar la consistencia de la definición debe insistirse que para variables aleatorias estadís- 
ticamente independientes, la probabilidad conjunta P(a < X < b, c < Y < d) 
es igual al producto de las probabilidades individuales P(a < X < b) yP(c< Y < d). 
En este punto se proporciona la siguiente definición: 

Definición 6.6 Sean X y y dos variables aleatorias con una distribución conjunta. 
Se dice que X y Y son estadísticas independientes si y sólo si, 

p(x, y) = Px(x)p Y (y) si X y Y son discretas 
o bien 

f(x, y) = f x (x)fA y) si X y Y son continuas, 

para toda xy y, en donde p(x, y) y/(.v, y) son las funciones bivariadas de probabili- 
dad y de densidad de probabilidad, respectivamente, y en donde Px(x), Pr(y),f x (x), 
y fAy) son las funciones de probabilidad marginal o de densidad de probabilidad 
marginal apropiadas. 



6.5 Variables aleatorias estadísticamente independientes 195 



Se desprende de esta definición que si A - y y son estadísticamente independientes, 
la probabilidad conjunta 



P(a < X < b, c < Y < 






y)dydx 



fx(x)f Y {y)dydx 

Ja Je 

\j x {x)dx[f Y (y)dy 



= P{a<X<b)P{c< Y<d). 
Para la misma condición, 

E(XY) = j J jyf{x,y)dydx 

= J _ J x Wfx MM y)dydx 

= j_^xf x (x)dx J_^yf Y (y)dy 

= E{X)E{Y). 

Si X y Y son estadísticamente independientes, entonces Cov(X, Y) - p(X, Y) = 0. 
Sin embargo debe hacerse hincapié en que la proposición inversa no es cierta. Es 
decir, una covarianza igual a cero no es una condición suficiente para asegurar la in- 
dependencia entre variables aleatorias. Debe notarse que si X y Y no son estadística- 
mente independientes, son estadísticamente dependientes. 

Se establecerán algunos resultados útiles con base en las definiciones 6.5 y 6.6. 
Sean A" y y dos variables aleatorias continuas con una función de densidad conjunta 
de probabilidad f(x, y). 

El valor esperado de una función lineal de A" y y es 

EUiX + bY) = I J (o.v + by)f(x,y)dydx 

= a J J ^ .v/'(.v. y)dydx + b J J ^ vfl.v. y)dydx 



= aE(X) + bE(Y) 

para cualquier valor de las constantes a y b. 
La varianza de una función lineal de A y y es 

VaiiaX + hY) = E(aX + bY) 2 - E z (aX + bY) 

= EUrX 2 + labXY + b : Y z ) - [aE(X) + bE(Y)] 2 



(6.15) 



196 Distribuciones conjuntas de probabilidad 

= a 2 E(X 2 ) + 2abE(XY) + b 2 E(Y 2 ) 

- a 2 E\X) - 2abE(X)E(Y) - b 2 E 2 (Y) 
= a 2 Var(X) + b 2 Var(Y) + 2abCov(X,Y). 



(6.16) 



Como consecuencia de los resultados anteriores, se tiene que el valor esperado de 
la suma de A" y y es la suma de los correspondientes valores esperados de A" y y, y la 
varianza de la suma de A" y y es igual a la suma de las respectivas varianzas más 
la covarianza de A y Y. Además, si A y y son estadísticamente independientes. 



Var(aX + bY) = a 2 Var(X) + b 2 Var(Y). 



(6.17) 



La generalización de estos resultados a n variables aleatorias se hace por inducción y 
se establece en el siguiente teorema: 

Teorema 6.1 Sean X, , X 2 , ■■■, X n n variables aleatorias con una función de den- 
sidad conjunta de probabilidad f(x,, x 2 , ..., x n ). Entonces 



a,£(A,) 



Var 



n 

2 a,X i 

_í=l 


n 

= 2 

i= 1 


n 
2 a;X; 

-<= 1 


n 

/= i 



= 2 aJVariXi) + S S «,«,Cov(*,, X,) 



= i /-i 



para cualquier constante a¡, i = 1, 2, ..., n. 

Ejemplo 6.5 Un vendedor obtiene sus ingresos mediante la venta de dos productos 
distintos. Por experiencia sabe que el volumen de ventas de A no tiene ninguna in- 
fluencia sobre el de B. Su ingreso mensual es el 10% del volumen, en dólares, del 
producto A y el 15% del volumen de B. Si en promedio las ventas del producto A 
ascienden a $10 000 con una desviación estándar de $2 000 y las de B a $8 000 con 
una desviación estándar de $1 000, obténgase el valor esperado y la desviación están- 
dar del ingreso mensual del vendedor. 

Sean A y y dos variables aleatorias que representan el volumen de ventas en dó- 
lares de los productos A y B, respectivamente. Por hipótesis: 

E(X) = 10 000, d.e.(X) = 2 000: E(Y) = 8 000. d.e.(Y) = I 000. 
De esta forma se tiene 

£(0.1* + 0.15 K) = 0.1 E(X) + 0.15 E(Y) = $2 200, 

y 

Var(0.\X + 0.15 y) = 0.01 Var(X) + 0.0225 Var(Y) = 62 500. 



m 

V 



La desviación estándar es de $250. 



6.6 Distribuciones de probabilidad condicional 197 

6.6 Distribuciones de probabilidad condicional 

Supóngase que un tanque de agua contiene dos contaminantes. Sean X y Y dos varia- 
bles aleatorias que representan el nivel de estos contaminantes en una porción del tan- 
que que a su vez se encuentra representada por una superficie rectangular. Supónga- 
se que el nivel observado de concentración de Y es y, pero no se observa X. Si se conoce 
la función de densidad conjunta de probabilidad /(jt, y), se necesita obtener una 
función que proporcione la probabilidad de que el nivel de concentración de X esté 
contenido en un intervalo (a, b) dado el valor observado de Y. Considere la función 

f(x,y)/f r (y), 

en donde f Y (y) es la densidad marginal de Y. Si se mantiene constante a la variable 
aleatoria Y en el valor observado .y de manera tal que f Y (y) > 0. entonces f(x. y)/f Y 
(y) define una función no negativa de A" cuya integral es 1, dado que por definición 

f f -yj^ dx = -^-\ flx, y)d.x = f Y (y)/f Y (y) = 1. 

De esta forma, f{x, y)/f Y (y) es una función de densidad de probabilidad y la pro- 
babilidad de que a < X < b, dado que el nivel de concentración de Fes y, está 
dada por: 

P(a < X < b \ y) = í f -^~ 4 dx - < 6 - 18 > 

Definición 6.7 Sean X y Y dos variables aleatorias con una función de densidad 
conjunta de probabilidad f(x, y). La función de densidad de probabilidad condi- 
cional de la variable aleatoria X, denotada por f(x \ y), para un valor fijo y de Y, 
está definida por 

fb\y)=f(x,y)lf Y (y), 

en donde f Y {y) es la función de densidad de probabilidad de Y de manera tal que 

fr(y) > 0. 

De manera análoga, la función de densidad de probabilidad condicional de Y 
para un valor fijo x de X se define como 

/( y | .v) = /(.r, y)// v (.v) f x (x) > 0, (6. 19) 

en donde f x (x) es la densidad marginal de A". Puede pensarse a f(x | y) como una 
función que da la densidad de probabilidad a lo largo de una línea horizontal en el 
plano (x, y) correspondiente a un valor fijo y de Y. De manera similar, /(>• | x) es 
una función que da la densidad de probabilidad a lo largo de una línea vertical en el 
plano (x, y) correspondiente a un valor x de X. 



198 Distribuciones conjuntas de probabilidad 

Nótese que si la densidad condicional f(x \ y) por ejemplo, no contiene a y, en- 
tonces X es estadísticamente independiente de Y. Esto es, si X y Y son estadística- 
mente independientes, entonces 

ñx, y) = f x (x)fAy) 



f(x\y)=f(x,y)/My) 

= fx{x)f Y {y)/f Y {y) 
= fxix). 



De manera similar, si 



entonces 



f(x,y)=f x (x)f r (y), 
f(y\x)=Mx)f r (y)/f x (x) 

= fr(y). 

Los valores esperados condicionales se definen de manera análoga a la señalada 
en la definición 6.5. Por ejemplo, los valores esperados condicionales de A" puesto 
que Y = y, y de Y, ya que X = x, se definen como 

E(X | y) = J ^ xf(x | y)dx 
y (6.20) 

E(Y\x) = J jf(y\x)dy, 

respectivamente. El valor esperado de X dado y es una función del punto fijo y y re- 
presenta la media de A" a lo largo de la línea correspondiente di y. Por simetría, el va- 
lor esperado condicional de Y dado x es una función de x y representa la media de Y 
a lo largo de la línea correspondiente a x. De manera similar, 



en donde 



Var(X | y) = E(X~ | y) - E(X \ y) 
Vur(Y\x) = E(Y 2 \x) - E 2 (Y\x), 

E(X 2 \y) = I rf(x\y)dx 
E(Y 2 \x) = J y : /(y|.vWy. 



(6.21) 



(6.22) 



6. 6 Distribuciones de probabilidad condicional 199 



Ejemplo 6.6 Sean A" y y los niveles de concentración en ppm de dos contaminantes 
en una determinada porción de un tanque de agua. Si la función de densidad conjun- 
ta de probabilidad está dada por 



f(x,y) = 



(x + y)/8000 < x, y < 20, 







para cualquier otro valor, 



y si el nivel de concentración observado de yes de 10 ppm, obtener la probabilidad 
de que el nivel de concentración de X sea, a lo más, 14 ppm. Obtener la media y la 
varianza condicional de X para Y = 10 ppm. 



Dado que 



se tiene 



f(x, y) = (x + y)/8000 < x, y < 20, 



fy(y) = ¿5 /„ <* + y"> dx = (y + ,0 )/ 400 ' 

y la densidad de probabilidad condicional de X es 

/(jc|y) = (x + y)/20(y + 10), 
la que se reduce a 

f(x\Y = 10) = (jc + 10)/400 
para Y = 10. Por lo tanto, 



P(X =£ 14 | Y = 10) 



-f 

Jo 



f(x I Y = \0)dx 



i r 14 
= m\ {x+ l0)dx 

400 Jo 
= 0.595. 

Para la media y varianza condicional de X en Y = 10 se tiene 

í 20 
EiX\Y= 10) = xf(x Y = I0)dx 

Jo 

1 í 20 

= ;¡¡5¡ (jf2 + l0x)dx 

400 Jo 
= 11.67; 

rio 

E(X Z | Y = 10) = x 2 /(x | Y = \0)dx 

Jo 



200 Distribuciones conjuntas de probabilidad 



r20 

,3 , m„2^ 



= 166.67; 
Var(X | K = 10) = 30.56. 

6.7 Análisis bayesiano: las distribuciones apríori y aposteríorí 

Se estableció en la sección 2.8 el teorema de Bayes para probabilidades condicionales 
de eventos discretos. En este contexto se examinará de manera breve cómo emplear- 
lo para modificar el grado de creencia con respecto a los resultados de un fenómeno 
al tenerse nueva información de éste. Sin embargo, es más importante la representa- 
ción que proporciona el teorema de Bayes para la distribución condicional de una 
variable aleatoria ya sea ésta cotinua o discreta. Tal representación es importante de- 
bido a que, como se verá en el capítulo 8, proporciona el mecanismo necesario sobre 
el cual se basa la inferencia bayesiana. En esta sección se examinarán los conceptos 
de distribución a priori y distribución a posteriori y se volverá a plantear el teorema de 
Bayes con estos conceptos. 

Sea Y una variable aleatoria (discreta o continua) definida de manera tal que sus 
valores representan las posibles opciones en que puede ocurrir un fenómeno aleato- 
rio antes de llevar a cabo un experimento. El grado de creencia del investigador con 
respecto a estas posibilidades se encuentra expresado por una función de probabili- 
dad p r (y), que recibe el nombre defunción de probabilidad a priori de Y, si Yes 
discreta, o una función de densidad f Y (y)* denominada función de densidad de pro- 
babilidad apríori de Y, si Yes continua. La especificación de la forma de p Y (y) o 
fy(y) depende de la convicción del investigador con respecto a los valores de y antes 
de que la información muestral se encuentre disponible. Esta convicción se puede 
basar en cualquier tipo de información que se encuentre disponible, incluyendo el 
juicio subjetivo. Sea f(x | y) la función de densidad de probabilidad condicional de 
cualquier variable aleatoria X*, la cual representa evidencia muestral en función 
de una alternativa fija y de Y. La función f(x | y) recibe el nombre defunción de 
verosimilitud debido a que representa el grado de concordancia del resultado 
muestral x, dado el valor y de Y. 

Cuando la información apríori con respecto a los valores de Y se combina con la 
información que proporcionó la muestra, el resultado es un conjunto de información 
modificada con respecto a la variable aleatoria Y. En otras palabras, la combinación 
de la distribución a priori y de la función de verosimilitud origina una distribución 
condicional para Y, dado el resultado muestral, que se conoce como la distribución a 
posteriori de Y. Esta combinación se hace de acuerdo con el teorema de Bayes, mismo 
que se replantea de la siguiente forma: 

Teorema 6.2 Sea /?>(>') o f Y (y) la función de probabilidad o de densidad de pro- 
babilidad a priori de Y, respectivamente, y sea f(x | y) la función de verosimilitud. 

* Se supone que la variable aleatoria X es continua aunque también puede ser discreta. 



6. 7 Análisis bayesiano: tas distribuciones a pnori y a posterior! a¡l 

Entonces la probabilidad aposleriori o función de densidad de probabilidad aposte- 
riori de Y dada la evidencia muestral x, es 

P(y'|x) = jyj y ? P * {y } , si Y es discreta, (6.23) 

Y 

fty\x)= f(x ' y) f r{y} si y es continua. (6.24) 



\ñx | yy K (yWy 



La función de probabilidad a posteriori p(y | jc) o la función de densidad de 
probabilidad a posteriori f( y \ x) reflejan el grado de creencia modificado del inves- 
tigador con respecto a la variable aleatoria Y después de obtener información mues- 
tra!. Dado que esta información se puede verificar de manera periódica, puede 
adoptarse fácilmente un punto de vista secuencial. En este contexto, la distribución 
a posteriori actual puede convertirse, en un futuro, en una distribución a priori 
cuando sea necesario llevar a cabo otra revisión con respecto a la variable aleatoria. 
La revisión periódica de las probabilidades se hace posible mediante el empleo suce- 
sivo del teorema 6.2. 

Es interesante notar que el denominador de (6.23) o (6.24) es la función de densi- 
dad de probabilidad marginal o no condicional de X; esto es, 

fx(x) = 2f(x\y)Pr(y) (6.25) 



fxU)= j y f( X \y)f Y (y)dy, (6.26) 

dependiendo de cuando Y es discreta o continua, respectivamente. Además, el nu- 
merador de (6.23) o (6.24) es el producto de la función de verosimilitud y la función 
de probabilidad a priori y, de esta manera, es la probabilidad conjunta de X y Y 
expresada como 

f(x. y) = /(.v| y)p } (y) si 7 es discreta, (6.27) 



f(x, y) = f{x | y)fr(y) si y es continua. (6.28) 

Nótese que para (6.27) la función f(x, y) es una mezcla bivariada de una variable 
aleatoria continua y otra discreta. 

Ejemplo 6. 7 Un vendedor de artículos domésticos nota que el número de personas 
que compran determinada marca de televisores varía aleatoriamente en el tiempo. El 
vendedor concluye que esta proporción es una variable aleatoria discreta que puede 
tomar los valores de 0.3, 0.35, 0.4 y 0.45, dependiendo de diversas consideraciones 



202 Distribuciones conjuntas de probabilidad 

de tipo económico. Con base en información previa, les asigna las probabilidades a 
priori 0.4, 0.3, 0.2 y 0.1, respectivamente. Una muestra de tamaño n = 15 revela 
que ocho de los televisores que se venden son de la marca de interés. Si se supone que 
para una proporción en particular p, el número de televisores de la marca que se 
vende para una muestra fija n es una variable aleatoria binomial, obtener las proba- 
bilidades a posteriori. 

Sea X la variable aleatoria que representa el número de aparatos de la marca de 
interés que se venden de una muestra de tamaño n. El valor X = 8 para n = 15, 
representa la evidencia muestral condicionada sobre una proporción en particular p 
de preferencia del consumidor para esta marca. Por hipótesis X es binomial y su 
función de verosimilitud es 



P(x; 15 | p) = 



— rl' r< 



P y 



(15 - x)lx\ 

Si p = 0.3, el valor de verosimilitud de la muestra es 

15! 



x = 0, 1,2, ..., 15. 



P(X = %\p = 0.3) = p(8; 15 | 0.3) = 



(0.3) 8 (0.7) 



15-8 



0.0348. 



(15 - 8)!8! 

Para los demás valores de p se tiene 

P(X = &\p = 0.35) = 0.071, 
P(X = S\p = 0.4) = 0.1181, 
P(X = &\p = 0.45) = 0.1647. 

Nótese que las dos variables aleatorias son discretas. A pesar de lo anterior, 
puede emplearse el teorema de Bayes (6.23) para obtener las probabilidades a poste- 
riori. La tabla 6.1 proporciona los detalles computacionales. La suma de las proba- 
bilidades tanto a priori como a posteriori debe ser igual a uno, dado que cada una de 
éstas es una distribución de probabilidad. En la figura 6.2 se ilustran las gráficas 



TABLA 6.1 Determinación de las probabilidades a posteriori para el ejemplo 6.7 









Probabilidad 
a priori 




Valores de la 


Probabilidad 


Verosimilitud 


X 


Probabilidad 


proporción 


a priori 


de la muestra 


verosimilitud 


a posteriori 


0.3 


0.4 


0.0348 


0.01392 


0.01392/0.07531 = 0.1848 


0.35 


0.3 


0.071 


0.02130 


0.02130/0.07531 = 0.2828 


0.4 


0.2 


0.1 181 


0.02362 


0.02362/0.07531 = 0.3137 


0.45 


0.1 


0.1647 


0.01647 


0.01647/0.07531 = 0.2187 


Totales 


1.0 




0.07531 


L.0000 



O. / sinaiisis oayesianu; tas uu>iriuuciurit:¿ a pitan y u putieiiuit 



0.40 










c 

.0 

^ 0.30 








1 0.20 

13 

1 0.10 








1 


1-, 

Pl, 


— ih~ 






1 



0.3 0.35 0.4 0.45 p 



C 0.40 

1 


" 










R °- 30 















«1 \ 








■S 0.20 

CS 

■0 












•8 0.10 

O 


—th- 











0.3 0.35 0.4 0.45 P 



FIGURA 6.2 r rolabilidades a priori y a posteriori para el ejemplo 6.7 



! .ti 



de arribas distribuciones de probabilidad, las que muestran un desarrollo notable en 
las probabilidades para los cuatro valores posibles de p. También existe un de- 
sarrollo en los valores esperados de la preferencia del consumidor para esta marca. 
El valor esperado a priori es 0.35 y el valor esperado a posteriori es 0.3783. 

Se mencionó en la sección 4.5 que la distribución binomial negativa es una alternati- 
va adecuada del modelo de Poisson cuando la frecuencia de ocurrencia no es constante 
sobre el tiempo o el espacio. Por ejemplo, en las estadísticas de accidentes es poco pro- 
bable que la frecuencia con que éstos se presentan entre grupos distintos sea constante 
e independiente sobre un lapso fijo. Lo anterior tiene como consecuencia que el 
punto de vista bayesiano sea una forma de análisis de estos datos mucho más apro- 
piada. 

Supóngase que todas las posibles frecuencias de ocurrencia pueden considerarse 
como valores de una variable aleatoria continua A, cuya distribución a priori es una 
distribución gama con una función de densidad dada por 






/(X;¿\ 0) = 777— ;X*-'exp(-X/0), X > 0. 

1 \K)V 



(6.29) 



Sea X una variable aleatoria que representa el número de accidentes que se observan 
en un grupo específico. Entonces puede argumentarse que A' es una variable aleato- 
ria de Poisson que depende de una k específica de A, con una función de verosimili- 
tud dada por 



p(x ¡ X) = X v exp(-\)/x! 



= 0, 1,2, 



(6.30) 



Antes de obtener la distribución a posteriori de A, se demostrará que la función de 
probabilidad marginal de X es la binomial negativa. Esto es, si para cada valor X 
de A, X tiene una distribución de Poisson, entonces la distribución no condicional de 
X sobre todos los posibles valores de X es la binomial negativa. 



204 Distribuciones conjuntas de probabilidad 

De (6.26) se desprende que la función de probabilidad marginal de X es: 



Px(x) 



= f P(x | k)f x (\)dk. (6.31) 

Jo 



Nótese que el integrando de (6.3 1) es la función de densidad conjunta de probabili- 
dad de X y A, lo que da como resultado una mezcla bivariada de una variable aleato- 
ria discreta con una continua. 

La sustitución de (6.29) y (6.30) en (6.31) conduce a: 



> M -Tuh£ k "'~'">[- k [ L r) 



d\. (6.32) 



En el integrando de (6.32) sea u = A [(0 + l)/0]; de esta forma X = [6/(6 + 1) 
]u y d\ = [8/(8 + \)}du. Entonces 

Px(x) = ürwl m + ir^^-'expí-wW" 
8/(6 + \) x+k Y(x + k) 



ru + /t)/ i W Y x = o,i,2, 



.vir(Á) U + i U+i/' ¿, 0>o. 



(6.33) 



La expresión (6.33) es idéntica a la dada por (4.35), que es la función de proba- 
bilidad de la distribución binomial negativa para k > 0. Nótese que en (6.33), 
p = 1/(8 + 1) y 1 - p = 8/(8 + 1), de forma tal que < p < 1 dado 
que 8 > 0. Además, de (4.39) la media de X es 

De esta manera, la distribución binomial negativa es una combinación de distribu- 
ciones de Poisson donde la frecuencia aleatoria de ocurrencia tiene una distribución 
gama cuya media es igual a la media de Poisson. Por esta razón la distribución bino- 
mial negativa también se conoce como una distribución compuesta de Poisson. 

Mediante el empleo del teorema 6.2 y, en particular, de la expresión (6.24), se 
puede obtener la densidad de probabilidad aposteriori de A condicionada al resul- 
tado muestral x de la siguiente forma: 

/(x i v) = b*!!: ' ex p< - w + l) /w I r < v + k) ( ' VY J 



r(A)0*.v! / x\V(k). \d + \J \8 + l 

x A+A 'exp{-[(0 + p/fl]\} nn*!(fl + I)"* 

r(jt).r!0* ' Rr + k)d* 

[(6 + p/erv + * -' exp {-[(fl + i)/t)]x} > 

n.r + A) 



6. 7 Análisis bayesiano: las distribuciones a priori y a posteriori 205 

La comparación de (6.34) con la función de densidad de probabilidad de la distribu- 
ción gama, dada por (5.45), muestra que la distribución a posteriori de A es una dis- 
tribución gama con parámetros de forma x + k y de escala 0/(0 + 1). Debe notar- 
se que si las distribuciones a priori y a posteriori pertenecen a la misma familia de 
distribuciones, como en el presente caso, ésta recibe el nombre de familia conjugada 
con respecto a la distribución de la muestra de datos. En este caso, la familia gama 
se conjuga con respecto a la distribución de Poisson. 



Ejemplo 6.8 Supóngase que para las estadísticas de accidentes se decide asignar a 
la frecuencia de ocurrencia una distribución a priori gama con parámetro de forma 
dos y de escala tres. Supóngase que posteriormente se observan dos accidentes para 
una frecuencia en particular. Obtener la función de densidad a posteriori de la fre- 
cuencia, dado el resultado muestral, y compararla con la densidad a priori. 

Sea A la frecuencia de ocurrencia. De (5.45) la densidad a priori de A es 

A(X;2, 3) = -Xexp(-X/3), X > 0. 

Dado un resultado muestral X = 2, la densidad a posteriori de A que se obtiene de 
(6.34) es 

/(X; 4, 3/4 | jc) = g(4/3)Vexpí-íxj, X > 0. 

En la figura 6.3 se proporciona una comparación entre las funciones de densidad a 
priori y a posteriori. De ésta es evidente que la densidad a posteriori se encuentra 
menos asimétrica que la densidad a priori. Nótese que la frecuencia media a priori es 
seis mientras que ésta misma a posteriori es tres. 

En la sección 5.4 se mencionó que la distribución beta tiene un papel muy impor- 
tante en la estadística bayesiana. Para ilustrar lo anterior considérese de nuevo el 
análisis bayesiano del parárametro de proporción de la distribución binomial. 

Ejemplo 6.9 En un proceso de manufactura, el interés se centra alrededor de la 
proporción de artículos defectuosos. Dado que es poco probable que el proceso 
tenga cambios menores en un lapso determinado como distintos desarrollos, va- 
riaciones en la materia prima y otros que pueden influir en la proporción de artículos 
defectuosos, es razonable pensar la proporción de éstos como una variable aleatoria 
cuyos posibles valores se encuentran en el intervalo (0, 1). Para una proporción dada 
de artículos defectuosos p, se sabe que el número x de éstos que se observa en una 
muestra aleatoria fija de n artículos es binomial. Esto es, la función de probabilidad 
condicional de X para n fijo, dado p, es 

n' 

p(x\ n p) = — p\l - pf \ x = 0. 1. 2, ... n. 

(n - x)\x\ 



206 Distribuciones conjuntas de probabilidad 



Densidad a posteriori 




FIGURA 6.3 Densidades a priori y a posteriori para el ejemplo 6.8 



Si la distribución a priori de la proporción de artículos defectuosos es una distribu- 
ción beta con una función de densidad de probabilidad 



^ ; »•^F¡^^•-• ( '-<^ , 



0*£ p « I, 



(6.35) 



demostrar que la distribución a posteriori de la proporción de artículos defectuosos, 
dado el número x de éstos, también es una distribución beta. 

De (6.24) la densidad de probabilidad a posteriori de la proporción de artículos 
defectuosos es: 



ftp I x) 



p(x\ n | p)Mp; a, ¡3) 
p(x; n \p)f,,(p:a. fi)dp 







n - x)\.x\ 



„-, Ha + /3) n . , 



R« + jS) 



(n-x)lx\ Ha) H/3) Jo 
p— "'(I - p)'-"--' 
p""'(l - p)"^-<~'dp 



'""'(I - pT^-'-'dp 



6.8 La distribución normal bivariada 207 

pero de (5.33), la integral /¿// +a ~'(l - pY* f ~"~ l dp = B(x + a, n+B-x). Por lo 
tanto, la densidad a posteriori es: 



ñp\x) = 



p x+ "-\\ - p)"^-'" 1 
B(x + a, n + B - x) 

n« + « + jB) 

TU + a) T(n + B - x) 



^ + -'íl - p) 1 



jW/3-.i- I 



0^ p ^ 1, (6.36) 



que es una densidad beta con parámetros (x + a)y (n + B - x). Por lo tanto, la 
familia conjugada para la distribución binomial es la familia de distribuciones beta. 

6.8 La distribución normal bivariada 

En el capítulo cinco se estudió la distribución norma] de una variable aleatoria. El 
concepto de distribución normal puede extenderse para incluir variables alea- 
torias. En particular, la distribución normal bivariada se emplea de manera extensa 
para describir el comportamiento probabilístico de dos variables aleatorias. 

Definición 6.8 Se dice que las variables aleatorias X y Y tienen una distribución 
normal bivariada si su función de densidad conjunta de probabilidad está dada por 



Ax, y) = 



l 



- 2p 



2tt cr x a y V 
- Px 



= exp 



<*X 



Pi 



a y 



1 


2(1 - p 2 ) 

'y - PrYl 


\ <r Y / _ 



x - Px 



(6.37) 



-= < x, y < 



en donde 



p x = E(X), p Y = E(Y), <i x = Var(X), cr\ = Var(Y), 



y p es el coeficiente de correlación de X y Y, definido en la sección 6.4. 









La figura 6.4 ilustra la función de densidad normal bivariada que es una superfi- 
cie tridimensional con forma de campana. Cualquier corte a través de la superficie 
da origen a una curva de forma normal univariada, mientras que planos paralelos al 
plano xy interceptan la superficie en elipses que reciben el nombre de contornos de 
probabilidad constante. 

Es interesante notar que, a pesar de que p = es una condición necesaria de in- 
dependencia, para la distribución normal bivariada también es una condición sufi- 
ciente. Eso es, si p = 0, entonces 



fix, v) = 



2w(T x cr, 



exp 



Px 



P> 



208 Distribuciones conjuntas de probabilidad 




-2.0 



FIGURA 6.4 Densidad normal bivariada con E(X) = E(Y) = 0, Var(X) = Vur(Y) = I, 
yp = 



1 



exp 



(-* - Ma )V2cr 2 v 



1 

—== — exp 
\2tt ct y 



-( v - Mi-) 2 /2cri- 



V2tt o-.v 

= fx(x)fy(y). 

en donde / v (.v) y /,•( v) son las densidades normales univariadas de Xy Y, respecti- 
vamente. 

Se puede demostrar que, mediante el empleo de (6.37) e integrando con respecto 
a y, la densidad marginal de X es normal con media Ma varianza cr A - De manera si- 
milar, la densidad marginal de Yes normal con media m> y varianza o~\. Por la de- 
finición 6.7, la densidad de probabilidad condicional de X dado el valor y de y es 



/(•v| >■: 



\ 2- (T X ( I 



x exp 



(>') 



2cr; Y (l - p~) 



v " Ma- 



P ""a 

a y 



(y - m>> 



(6.18) 



La expresión (6.38) es una función de densidad de probabilidad normal con 



a,v v: 



Ma- 



(y - m¡) 



V 7 í//-(A'í v) 



"■a (I - P")- 



6.8 La distribución normal bivariada 209 

Se puede obtener una expresión similar para la densidad condicional de Y dado el 
valor x de X. 

Ejemplo 6.10 Sean A" y y las desviaciones horizontal y vertical (sobre un plano), 
respectivamente, de un vehículo espacial tripulado con respecto al punto de aterriza- 
je de éste en el mar de la Tranquilidad. Supóngase que A" y y son dos variables alea- 
torias, independientes cada una, con una distribución normal bivariada y medias 
Hx — ^y = y varianzas iguales. ¿Cuál es la máxima desviación estándar permi- 
sible de X y Y, que cumplirá Con el requisito de la NASA de tener una probabilidad 
de 0.99, de que el vehículo aterrice a no más de 500 ft del punto elegido, tanto en di- 
rección vertical como horizontal? 

Debido a la independencia y a la hipótesis de que cr x = o> = o-, la probabili- 
dad conjunta es 

P( - 500 < X < 500, - 500 < Y < 500) = P( -500 < X < 500) 

f(-500< r<500) 

. 500 , 500 
= f| <z< 

O" O" 

. P| _^ <Z< ^ 
a a 

500 „ 500 
— <Z< 

O" (T 



Puesto que por hipótesis es 



500 500\ 

<Z< — = 0.99, 

O" O" / 



500 500 \ 

< Z < — | = 0.99499 

O" O" 



P\Z>—\ = 0.0025, 



pero 



P(Z> 2.81) = 0.0025: 
por lo tanto 500/tr = 2.81. y o\ v = o-, ■ =s 177.94 pies 



210 Distribuciones conjuntas de probabilidad 



Referencias 

1. P. G. Hoel, Introduction to mathematical statistics, 4th ed., Wiley, New York, 1971. 

2. R. V. Hogg and A. T. Craig, Introduction to mathematical statistics, 4th ed., Macmillan, 
New York, 1978. 

3. B. W. Lindgren, Statistkal theory, 3rd ed., Macmillan, New York, 1976. 



i 



Ejercicios 



6.1. Se seleccionaron, aleatoriamente, 60 personas y se les preguntó su preferencia con res- 
pecto a tres marcas A, B y C. Éstas fueron de 27, 18 y 15 respectivamente. ¿Qué tan pro- 
bable es este resultado si no existen otras marcas en el mercado y la preferencia se com- 
parte por igual entre las tres? 

6.2. Supóngase que de un proceso de producción se seleccionan, de manera aleatoria, 25 
artículos. Este pi jceso de producción por lo general produce un 90% de artículos listos 
para venderse y un 7% reprocesables. ¿Cuál es la probabilidad de que 22 de los 25 
artículos estén listos para venderse y que dos sean reprocesables? 

6.3. Sean Xy Y dos variables aleatorias continuas con una función de densidad conjunta de 
probabilidad dada por: 



ñx, v) 



(3_v - y)/5 1 <.v <2, 1 < v < 3, 
para cualquier otro valor. 



a) Obtener la función de distribución conjunta acumulativa. 

b) ¿Cuál es la probabilidad conjunta de que X < 3/2 y Y < 2? 

c) Mediante el empleo de sus respuestas a la parte a, obtener las distribuciones acumula- 
tivas marginales de A' y Y. 

d) Obtener las funciones de densidad marginal de X y de Y. 

6.4. Sean Xy y dos variables aleatorias continuas con una función de densidad conjunta de 
probabilidad dada por 



/(■v, y) 



.vexpf-jr(y + 1)] -v, y > 0, 

para cualquier otro valor. 



a) Demostrar que/(.v. y) es una función de densidad conjunta de probabilidad. 

b) ¿Cuál es la probabilidad conjunta de que X < 2 y Y < I ? 

c) Obtener las funciones de densidad marginal de X y de Y. 

d) ¿Son Xy Y estadísticamente independientes? 

6.5. Sean X y Y dos variables aleatorias discretas en donde los posibles valores que éstas 
pueden tomar son — 1 . 0, y 1 . En la siguiente tabla se dan las probabilidades conjuntas 
para todos los posibles valores dt X y Y. 



X 




<> 



1/16 


3/16 


1/16 


3/16 





3/16 


1/16 


3/16 


1/16 



Ejercicios 211 

a) Obtener las funciones de probabilidad marginal p x (x) y p Y (y). 

b) ¿Las variables aleatorias X y Y son estadísticamente independientes? 

c) Obtener Cov(X, Y). 

6.6. Para la función de densidad conjunta de probabilidad del ejercicio 6.3, obtener Cov(X, 

Y) y P (X, Y). 

6.7. En función de su prioridad, un programa para computadora espera en la fila de entrada 
cierto tiempo, depués del cual lo ejecuta el procesador central en un lapso dado. La fun- 
ción de densidad conjunta para los tiempos de espera y ejecución se determina por 



fi',. ':) = 



Í + 10/; 



f,,? : >0, 



para cualquier otro valor. 



2 exp 

Dada la distribución conjunta acumulativa: 

f[l - exp(-/,/5))[l - exp(-IO/.)l f,.f ; >0. 
para cualquier otro valor. 



F(/,-/;) 



a) Obtener la probabilidad conjunta de que el tiempo de espera no sea mayor de ocho 
minutos y el de ejecución no sea mayor de 12 segundos. 

b) Obtener las funciones de densidad marginal y deducir que estos lapsos son variables 
aleatorias independientes. 

6.8. Las variables aleatorias A" y y representan las proporciones de los mercados correspon- 
dientes a dos productos distintos fabricados por la misma compañía y cuya función de 
densidad conjunta de probabilidad está dada por 



f(x, y) 



(x + y) =£ x, vsl, 

para cualquier otro valor. 



a) Obtener las funciones de densidad marginal de A' y Y. 

b) ¿Las variables aleatorias X y Y son estadísticamente independientes? 

c) Si X = 0.2, obtener la función de densidad de probabilidad condicional de Y. 

6.9. Las variables aleatorias Xy y representan el largo y ancho (en cm) de una hoja de acero. 
Si X y Y son independientes con funciones de densidad de probabilidad dadas por 



./v(v) 



99 < .i < 100. 







/><v> 



1 . 49 < y < 50. 



para cualquier otro valor. 10 para cualquier otro valor. 



úsese la definición de la varianza para obtener la varianza del área de la hoja de acero 
XY. 

6.10. Sea X una variable aleatoria continua y y discreta. 

a) Si J\x. y) = r' exp(-2.v)/y!, a > 0, y = 0. I, 2 obtener la función de 

probabilidad marginal de Y. 

b) Obtener la función de probabilidad condicional de X para Y = 2. 

c) Obtener E(X \ 2) y Vur(X \ 2). 

6.11. Sean Xy Y dos variables aleatorias. Demostrar que VarU'X - bY) = a : Var{X)+ h~ 
Vur( Y) - lab Co\\X. K), en donde a y b son constantes. 



N 



vi 



212 Distribuciones conjuntas de probabilidad 

6.12. Sean A' y Y dos variables aleatorias. Demostrar que Cov{aX, bY) = ub Cov{X. Y), en 
donde a y b son constantes. 

6.13. Si X y Fson dos variables aleatorias independientes Var(X + Y) = Var(X - Y) = 
Var{X) + Var(Y). Comparar este resultado con VariX + Y) cuando Var(X - Y) 
Cov(X, Y) > o Cov(A", Y) < 0. ¿Qué puede concluirse? 

6. 14. Supóngase que la frecuencia A a la que ocurren accidentes automovilísticos en un lapso 
fijo es una variable aleatoria con una ditribución gama y parámetros de forma y escala 
igual a dos. Si para cada valor X deA la distribución condicional del número de acciden- 
tes es una distribución de Poisson, obtener la función de probabilidad marginal de A' y 
calcular las probabilidades para X = 0, 1, 2 ... 10. ¿Cómo son estas probabilidades al 
compararlas con las que se obtienen bajo la suposición de una frecuencia constante 
\ = 4? 

6.15. Supóngase que la incidencia de cáncer pulmonar para un determinado número de perso- 
nas adultas, sin importar sus hábitos de fumador, su edad, etc., es una variable aleatoria 
con distribución gama con parámetros de forma y escala iguales a dos. Para un grupo es- 
pecífico de personas, el número que presentarán cáncer pulmonar es una variable alea- 
toria de Poisson en donde el valor del parámetro de ésta depende de la incidencia de 
cáncer en este grupo. Obtener la probabilidad no condicional de que no más de dos per- 
sonas desarrollen cáncer en este grupo. 

6.16 En el ejercicio 6.15 supóngase que x = 5 adultos, de cierto número, desarrollarán cán- 
cer. Obtener la densidad aposteriori de A dado x, calcular las medias y varianzas tanto 
a priori como a posteriori y comparar los resultados. 

6.17 Supóngase que el gerente de una planta descubre que la proporción de artículos defec- 
tuosos en su proceso de producción no es constante sino que se comporta como una va- 
riable aleatoria. Sin ninguna evidencia, decide asignar una distribución beta con a = 1 
y |3 = 24 para la producción de artículos defectuosos. 

a) Graficar la función de densidad a priori y obtener su media y su varianza. 

b) Supóngase que el gerente toma una muestra ai = 12 artículos y encuentra uno de- 
fectuoso. Bajo las hipótesis necesarias, obtener y graficar la función de densidad de 
probabilidad a posteriori. 

c) Encontrar la media y la varianza a posteriori y compararlas con la medía y la varian- 
za a priori. 

d) Hágase uso del ejercicio 5.24 para obtener la probabilidad aposteriori de que la pro- 
porción de artículos defectuosos sea a lo más 0.05. 

6. 18. Supóngase que la proporción de lanzamientos exitosos de satélites de comunicaciones es 
una variable aleatoria con distribución beta y parámetros « - 2 1 y >3 = ). Si de los úl- 
timos 12 lanzamientos uno ha fracasado, obtener la función de probabilidad a poste- 
riori de la proporción de lanzamientos exitosos y calcular la probabilidad a posteriori 
para que la proporción de éstos sea mayor de 0.95. Emplee la expresión 5.44. 

6. 19. La función de densidad conjunta de probabilidad para la demanda mensual de dos pro- 
ductos es una distribución normal bivariada dada por 



/(-v. v) 



1 



I00tt\/3 



==e.xp 



2 


IW 


-(^)( 


- v - 25 l + í 


v-25)- 
10 } 


3 


10 l + [ 



Ejercicios 213 

a) ¿Cuál es el coeficiente de correlación entre Xy Y! 

b) ¿Cuál es la covarianza entre A" y Y? 

c) Obtener la función de densidad de probabilidad condicional f(x | y). 

d) Supóngase que la demanda de Xes 30. ¿Cuál es la probabilidad condicional de que 
X sea menor que 65? 

6.20. Supóngase que el C\(X) y la calificación promedio de estudiantes no graduados de li- 
cenciatura Y son variables aleatorias que se encuentran distribuidas de manera conjunta 
como una distribución normal bivariada /i* = 100, cr x = 10, ¿i, = 3, a> = 0.3, y 
Cov(X, Y) = 2.25. 

a) Si algún estudiante posee un CI de 120, ¿cuáles son los valores de la media y la des- 
viación estándar condicionales para Y? 

b) Dado que el Cl es 120, obtener la probabilidad de que Y sea mayor de 3.5. 

c) Supóngase que la calificación promedio de un estudiante es 2.8. ¿Cuál es la probabi- 
lidad de que esta persona tenga un Cl mayor de 115? 



CAPITULO SIETE 



Muestras aleatorias 

y distribuciones de muestreo 



7.1 Introducción 

En el capítulo uno se mencionó que para comprender la esencia de la inferencia esta- 
dística es necesario comprender la naturaleza de una población y de una muestra. 
Una población representa el "estado de la naturaleza" o la forma de las cosas con 
respecto a un fenómeno aleatorio en particular, mismo que puede identificarse a tra- 
vés de/una característica medible X. La manera en que ocurren las cosas en relación 
con X puede definirse por un modelo de probabilidad que recibe el nombre de distri- 
bución de probabilidad de la población. Por otro lado, una muestra es una colección 
de datos que se obtienen al llevar a cabo repetidos ensayos de un experimento para 
lograr una evidencia representativa acerca de la población en relación con la caracte- 
rística X. Si la manera de obtener la muestra es imparcial y técnicamente buena, en- 
tonces la muestra puede contener información útil con respecto al estado de la natu- 
raleza y a partir de ello se podrán formular inferencias. Ahora bien, estas últimas 
son inductivas y, por lo tanto, están sujetas a riesgo, dado que representan un razo- 
namiento que va de lo particular a lo general. 

Eri los capítulos cuatro, cinco y seis se examinaron con detalle algunas distribu- 
ciones de probabilidad que pueden servir como modelo para la distribución de una 
población de interés. En los capítulos restantes el principal objetivo es examinar dis- 
tintas técnicas por medio de las cuales puede aplicarse el proceso inductivo de la in- 
ferencia estadística para proporcionar resultados útiles y confiables. La inferencia 
estadística se define como la colección de técnicas que permiten formular inferencias 
inductivas y que proporcionan una medida del riesgo de éstas. En este capítulo se es- 
tablecerán algunos conceptos teóricos básicos con respecto al muestreo y a la infe- 
rencia estadística. La aplicación de estos conceptos se dará con gran detalle en 
capítulos posteriores. 



7.2 Muestras aleatorias 

Como la inferencia estadística se formula con base en una muestra de objetos de la 
población de interés, el proceso por medio del cual se obtiene será aquél que asegure 



1 . Se diseña un experimento y se lleva a cabo para proporcionar la observación X, 
de la característica medible X. El experimento se repite bajo las mismas condi- 
ciones proporcionando el valor X 2 . El proceso se continúa hasta tener n observacio- 
nes X t , X 2 , ..., X n de la característica X. 

En este procedimiento de muestreo, las observaciones muéstrales se colectan a 
través de ensayos independientes que ocurren cada vez que el experimento se repite 
bajo condiciones idénticas para todos los factores que son controlables. En este con- 
texto, cada observación del /'-ésimo experimento se considera como una selección de 
la misma fuente que proporciona la observación de cualquier otro ensayo para X. 
En esencia, las observaciones bajo las mismas condiciones como resultado de repeti- 
dos ensayos independientes de un experimento, constituye lo que se denomina un 
muestreo aleatorio con reemplazo. De acuerdo con lo anterior, cada una de las ob- 
servaciones X¡, X z X„ es una variable aleatoria cuya distribución de probabi- 
lidad es idéntica a la de la población. 



r? 



7.2 Muestras aleatorias 215 

la selección de una buena muestra. En el capítulo uno se expuso que una manera de 
obtener una buena muestra resulta cuando el proceso de muestreo proporciona, a cada 
objeto en la población, una oportunidad igual e independiente de ser incluido en la 
muestra. Si la población consiste de N objetos y de éstos se selecciona una muestra de 
tamaño n, el proceso de muestreo debe asegurar que cada muestra de tamaño n tenga 
la misma probabilidad de ser seleccionada. Este procedimiento conduce a lo que co- 
múnmente se conoce como una muestra aleatoria simple. En este contexto, la pa- 
labra "aleatorio" sugiere una total imparcialidad en la selección de la muestra. . ; ' 11 

La naturaleza de la inferencia inductiva demanda una muestra aleatoria porque 
la selección de ésta se lleva a cabo con el fin de proporcionar los medios adecuados 
para que pueda formularse una inferencia con respecto a alguna característica de la 
población de interés. Por ejemplo, pueden formularse inferencias de ciertas condi- 
ciones que se suponen válidas para la población si la muestra que se observó se 
encuentra o no dentro de la variación muestral, misma que prevalecerá si las condi- 
ciones son verdaderas. De esta forma la calidad ó" la aleatoriedad en una muestra 
asegura la aplicación correcta de la probabilidad para evaluar el riesgo inherente en 
un proceso inductivo. 

En este momento es importante estructurar el concepto de una muestra aleato- 
ria simple empleando para ello los conceptos de probabilidad que se presentaron en 
los capítulos dos al seis. Para llevar a cabo lo anterior, primero se examinarán si- 
tuaciones que se presentan, de manera frecuente, en los muéstreos. La primera de és- M 
tas surge en muchos experimentos que involucran fenómenos aleatorios en la inge- j| 
niería y las ciencias físicas. En estos casos la población de interés no consiste en obje- : j| 
tos tangibles a partir de los cuales se selecciona un cierto número para formar la 
muestra. Más bien, la población se considera constituida por un número infinito de 
posibles resultados para alguna característica medible de interés. Esta característica 
generalmente es una medición física como el nivel de concentración de un contami- 
nante, la demanda de un producto o el tiempo de espera en un servicio. Sea X una 
característica medible y f(x; 6) la función de densidad de probabilidad de la distri- 
bución de la población. El siguiente procedimiento es una forma de muestreo para 
este tipo de población: 



BU 



■'ü 



l.¡ 



216 Muestras aleatorias y distribuciones de muestreo 

Una situación diferente se presenta cuando se lleva a cabo una selección de ob- 
jetos tangibles de una población que consiste en un número finito de objetos (seres 
humanos, animales, componentes mecánicos o eléctricos, etc.). La característica me- 
dible de interés puede ser un atributo, como el estado de un componente (defectuoso 
o no defectuoso), la opinión de una persona con respecto a cierto tema (a favor o en 
contra) o una medición cuantitativa como el CI de una persona o el tiempo de dura- 
ción de un componente. Existen dos formas para obtener muestras aleatorias de este 
tipo de población: 

2. Después de llevar a cabo una mezcla adecuada de los objetos de la población, se 
extrae uno y se observa la característica medible. Esta observación será X K . El ob- 
jeto se regresa a la población y ésta vuelve a mezclarse; después se extrae el segun- 
do objeto. X 2 se constituye por la segunda observación. El proceso se continúa de 
esta forma hasta que se han extraído n objetos para tener una muestra de obser- 
vaciones X t , X 2 , ..., X„ de la característica X. 

3. Después de una mezcla adecuada de los objetos que constituyen la población, n 
de éstos se seleccionan uno después de otro sin reemplazo. Este proceso propor- 
ciona una muestra de observaciones X,, X 2 X„ de la característica A". 

Nótese que la técnica 2 constituye un muestreo con reemplazo y la técnica 3 es 
un muestreo sin reemplazo. En el contexto general de una muestra aleatoria simple, 
la técnica recibe el nombre de aleatoria. Cuando los objetos se extraen después de 
una selección equitativa. Por consiguiente, la técnica de muestreo dos recibe el 
nombre de muestreo aleatorio con reemplazo, y la técnica tres el de muestreo aleato- 
rio sin reemplazo. En la técnica dos, cada una de las observaciones X t , X 2 , ..., X„ 
es una variable aleatoria cuya distribución de probabilidad es idéntica a la de la po- 
blación, puesto que en cada extracción ésta tiene su forma original. En la técnica de 
muestreo tres, las observaciones X v X 2 ..., X n también son variables aleatorias 
cuyas distribuciones marginales son iguales a las de la población. Es decir, puede 
demostrarse que aun a pesar de que los objetos que se extraen de la población no 
sean reemplazados, la distribución no condicional de X¡ es idéntica a la de la pobla- 
ción, para toda / = 1, 2 n. 

La diferencia básica entre las dos técnicas es la noción de independencia. En la 
técnica dos, las observaciones X,, X 2 , ..., X„ constituyen un conjunto de variables 
aleatorias independientes e idénticamente distribuidas (IID) dado que, por el proce- 
so de reemplazo, ninguna observación se ve afectada por otra. En la técnica tres, a 
pesar de que las observaciones X x , X 2 , ..., X„ poseen la misma distribución, no son 
independientes. 

Recuérdese que, para la técnica uno, el muestreo se lleva a cabo con reemplazo a 
pesar de que la población no se encuentre constituida por objetos tangibles. De 
hecho, la técnica de muestreo dos es un caso especial de la primera, dado que la po- 
blación no se afecta después de cada extracción. Sin embargo, es interesante notar 
que puede preferirse el muestreo aleatorio sin reemplazo si el tamaño de la población 
es relativamente pequeño*. En estos casos, si el muestreo se lleva a cabo con re- 

* El lector recordará que esto es precisamente lo que constituye una distribución hipergeométrica tal como 
se discutió en la sección 4.4. 



7.2 Muestras aleatorias 217 

emplazo es muy probable que el mismo objeto sea seleccionado más de una vez. Es 
por esta razón que en las encuestas de preferencia el muestreo se hace sin reemplazo. 
Por otro lado, si el número de objetos en la población es muy grande, es irrelevante 
si el muestreo se lleva a cabo con reemplazo o sin éste. Conforme crece el tamaño de 
la población, el muestreo aleatorio sin reemplazo es, en todos los intentos y para 
cualquier propósito, igual al muestreo aleatorio con reemplazo. 

Al hablar de la inferencia estadística se supondrá la existencia de una muestra 
aleatoria, como la descrita por la técnica de muestreo 1, y que se define de manera 
formal de la siguiente manera: 



Definición 7.1 Si las variables aleatorias X v X 2 , ..., X n tienen la misma función 
(densidad) de probabilidad que la de la distribución de la población y su función 
(distribución) conjunta de probabilidad es igual al producto de las marginales, en- 
tonces X x , X 2 , ..., X„ forman un conjunto de n variables aleatorias independientes 
e idénticamente distribuidas (IID) que constituyen una muestra aleatoria de la po- 
blación. 

Cuando el objetivo es formular una inferencia estadística, debe hacerse un in- 
tento honesto para obtener una muestra aleatoria que porporcione la base teórica 
necesaria para la inferencia. Desde un punto de vista práctico, lo anterior no siempre 
es fácil. Por ejemplo, en muchas ocasiones es difícil decidir cuándo se están mante- 
niendo condiciones idénticas durante el proceso de reunir datos en experimentos 
científicos. Esto es especialmente cierto si los factores ambientales crean condicio- 
nes heterogéneas. Sin embargo, es responsabilidad del experimentador decidir cuán- 
do una muestra observada de datos es, en gran medida, aleatoria. 

Para ilustrar el proceso de muestreo en un experimento científico, supóngase 
que se tiene interés en la concentración de cierto contaminante en un depósito de 
agua. Se coloca una boya que contiene un instrumento para medir el nivel de con- 
centración en el sitio de interés. El instrumento registra el nivel de concentración 
cada n intervalos. De esta forma, las observaciones X x , X 7 , ..., X n constituyen una 
muestra del nivel de concentración en el sitio de interés. Antes de que el instrumento 
registre el nivel de concentración para el /-ésimo periodo, la observación X, es una 

variable aleatoria para / = 1,2 n. El valor registrado x t (el valor numérico 

correspondiente a la observación X) es una realización de la variable aleatoria. Al 

final de los n intervalos las mediciones .v,, .v : x„ que registra el instrumento 

son las realizaciones, o datos muéstrales, de las correspondientes variables aleatorias 

X { , X 2 X„. Sin embargo, es válido preguntarse si la anterior es veraderamente 

una muestra aleatoria. Nadie puede proporcionar una respuesta legítima sin tener 
información adicional. Por ejemplo, ¿está el investigador consciente de todos los su- 
cesos que durante el periodo de muestreo podría causar un cambio significativo en 
el nivel de concentración del contaminante? ¿Consideró el lapso de muestreo ade- 
cuado o existen algunas fluctuaciones temporales que deben ser consideradas? ¿Es 
probable, que el error en el instrumento sea mayor conforme transcurre el tiempo? 
Preguntas como las anteriores deben contestarse antes de dar un juicio definitivo 
sobre la aleatoriedad de la muestra. 



218 Muestras aleatorias y distribuciones de muestreo 

En el contexto de la definición 7. 1 , la función (densidad) conjunta de probabili- 
dad de X t , X 2 , .., X„ es la función de verosimilitud de la muestra dada por 

n 

Ux-,0) = n /i*/;*). ( ? -D 

en donde x = {*,, x 2 , ..., x„} denota los datos muestreados^ Cuando las realizacio- 
nes x se conocen, L(x; 6) es una función del parámetro desconocido $. La utilidad 
de la función de verosimilitud para estimar parámetros se examinará en el capítulo 
ocho. 

Ejemplo 7.1 Se ilustrará el concepto de muestra aleatoria dado en la definición 7.1 
mediante lo siguiente: sea X x , X 2 , ■■■, X n una muestra aleatoria de n variables alea- 
torias IID de una población cuya distribución de probabilidad es exponencial con 
densidad 

f(x;9) = -exp(-jr/0), 0<.r<*. 

Cuando se observa X, y se registra su realización x r 

f(x,;0) = -exp(-x,/e), 0<x,<«>. 

Ahora se observa X 2 y se registra su realización x r Dado que X { y X 2 son estadística- 
mente independientes y tienen las mismas densidades marginales, 

f(xi\x t ) = f(x 2 ; 6) = - exp( - x 2 /6), < x 2 < oo . 

u 

La función de densidad conjunta de A', y X 2 es 

/(*„ x 2 ; 6) = f( Xl ; 0)f(x 2 ; 0) = ¿ exp[-(x, + x 2 )/9), 0< X¡ < oo, i = 1, 2. 

a 

Por lo tanto, se desprende que para una muestra aleatoria de tamaño n 

L{x u x 2 , ...,x n ;0) = — exp[-U, + x 2 + ■■■ + x n )/0], 

<-v, < », / = 1, 2 n. 



7.3 Distribuciones de muestreo de estadísticas 

En los comentarios introductorios del capítulo uno se mencionó de manera breve que 
las características muéstrales denominadas "estadísticas" se emplean para hacer infe- 
rencias con respecto a las características de la población, las que reciben el nombre 
de "parámetros". El objetivo de esta sección será el de examinar con detalle el papel 
que desempeñan las estadísticas en relación con la inferencia. En particular, se desa- 



7.3 Distribuciones de muestreo de estadísticas 219 

rrollará la noción de una distribución de muestreo de una estadística, que es uno de 
los conceptos más importantes en inferencia estadística. 

Para colocar a las estadísticas en una mejor perspectiva se debe definir y anali- 
zar, de manera formal, un parámetro de población. 

\ 
Definición 7.2 Un parámetro es una caracterización numérica de la distribución de la 

población de manera que describe, parcial o completamente, la función de densidad " 

de probabilidad de la característica de interés. Por ejemplo, cuando se especifica el 

valor del parámetro de escala exponencial d, se describe de manera completa la 

función de densidad de probabilidad 

x f(x;&) = {exp(-x/d). 

La oración "describe de manera completa" sugiere que una vez que se conoce el 
valor de 6 entonces puede formularse cualquier proposición probabilística de inte- 
rés. A manera de ilustración, si 9 = 2, entonces: 

P(X> 4) = \ i exp(-x/2)dx = 0.1353. 

2 J4 

Por otra parte, si se especifica un valor del parámetro de forma a, de la distribución 
gama, la función de densidad de probabilidad 

/(*; «< <» = -i- x"~ ' exp( -x/8) 

r(a)(r 

no se encuentra especificada de manera completa, ya que no se ha hecho ninguna 
mención con respecto al valor del parámetro de escala 0. 

La esencia de todo lo anterior es que, dado que los parámetros son prácticamen- 
te inherentes a todos los modelos de probabilidad, es imposible calcular las proba- 
bilidades deseadas sin un conocimiento del valor de éstos. Es por esta razón que la 
noción de una estadística y su distribución de muestreo es muy importante en inferen- 
cia estadística. Esto es, los parámetros o sus funciones se estiman con base en esta- 
dísticas que, a su vez, se obtienen a partir de la información contenida en una 
muestra aleatoria. 

Antes de dar la definición de una estadística, debe notarse que desde un punto de 
vista clásico (no bayesiano), un parámetro se considera como una constante fija 
cuyo valor se desconoce. Desde una perspectiva bayesiana un parámetro siempre es 
una variable aleatoria con algún tipo de distribución de probabilidad. Se considerará 
a los parámetros, principalmente desde el punto de vista clásico, aunque también se 
dará el punto de vista bayesiano, a fin de dar una perspectiva apropiada. 

Definición 7.3 Una estadística es cualquier función de las variables aleatorias que 
se observaron en la muestra de manera que esta función no contiene cantidades des- 
conocidas. 



220 Muestras aleatorias y distribuciones de muestreo 

Considérese la muestra X ~ {X\- X-i- ■■■■> X»} Que consiste de n variables alea- 
torias IID con una función de densidad de probabilidad f{x\ 6) que depende de un 
parámetro desconocido 0. Supóngase que se definen funciones como 

UX) = (*, + X 2 + - + X„)/n, 

T 2 (X) = {X] + X¡ + - +X 2 n )/n, 

UX) = x t + x 2 , 

y así sucesivamente. Todas ellas son estadísticas porque se determinan de manera 
completa por las variables aleatorias que contiene la muestra. De manera general, 
denótese una estadística por T = u(X). Dado que T es una función de variables alea- 
torias, es en sí misma una variable aleatoria, y su valor específico / = u(x) puede 
determinarse cuando se conozcan las realizaciones x de X. Si se emplea una estadís- 
tica T para estimar un parámetro desconocido 0, entonces T recibe el nombre de 
estimador de 0, y el valor específico de t como un resultado de los datos muéstrales 
recibe el nombre estimación de d. Esto es, un estimador es una estadística que identi- 
fica al mecanismo funcional por medio del cual, una vez que las observaciones en la 
muestra se realizan, se obtiene una estimación. 

Una estadística es, sustancialmente, diferente de un parámetro. Un parámetro es 
una constante pero una estadística es una variable aleatoria. Además, un valor del 
parámetro descrito describe de manera completa un modelo de probabilidad (supo- 
niendo una distribución uniparamétrica); ningún valor de la estadística puede de- 
sempeñar tal papel si cada uno de éstos depende del valor de las observaciones de las 
muestras. Y dado que las muestras se toman en forma aleatoria, ninguna muestra es 
más válida que cualquier otra que se haya tomado con el mismo fin. 

Para ilustrar el concepto de una estadística se dará solución al siguiente proble- 
ma: supóngase que se tiene interés en la duración promedio de cierta clase de batería 
miniatura. Se asegura que el proceso de manufactura de ésta es el mismo y que se 
emplean materiales idénticos. Se decide seleccionar aleatoriamente cinco pilas diarias 
durante 20 días. Para cada muestra diaria, las cinco baterías se someten a una 
prueba de duración que consiste en registrar el tiempo de operación. La prueba ter- 
mina cuando todas dejan de funcionar. Como se supone que el proceso de fabrica- 
ción es el mismo durante el periodo de muestreo, este esquema proporciona 20 muestras 
aleatorias distintas, donde cada una contiene cinco variables aleatorias independientes y 
distribuidas de manera idéntica. Sea = {X tJ , X 2J , ..., X y } el conjunto de varia- 
bles aleatorias de layésima muestra para^ = 1, 2, ..., 20, y *_,- = {.v,,, a : , ,v 5/ } 

los correspondientes tiempos de duración observados. Considérese la estadística. 

T, = (X ti + X v + ■■■ + X,¡)/5 

como un estimador del tiempo de duración promedio de las baterías. Si se supone 
que los tiempos observados son los que aparecen en la tabla 7.1, entonces para la/- 
ésima muestra existe una realización /, para la estadística T¡. Es decir, cada muestra 
diaria proporciona una estimación de la duración promedio de las baterías. 



7.3 Distribuciones de mués t reo de estadísticas 221 

Nótese que las estimaciones que aparecen en la tabla para la duración promedió 
tienen una variación que se encuentra entre 140.8 y 157.2 horas. De esta forma, exis- 
te una variabilidad inherente entre estas estimaciones. Además, para cualquier esta- 
dística se espera una variabilidad de muestra a muestra, dado que una estadística es 
una variable aleatoria. De hecho, para cada estadística existe lo que se conoce 
como su distribución de muestreo, la cual toma en cuenta la variabilidad inherente y 
proporciona los medios necesarios por medio de los cuales puede evaluarse la 
estadística. Se definirá la distribución de muestreo de una estadística con base en 
muestras aleatorias, de acuerdo con la definición 7.1. 

Definición 7.4 La distribución de muestreo de una estadística T es la distribución 
de probabilidad de Tque puede obtenerse como resultado de un número infinito de 
muestras aleatorias independientes, cada una de tamaño n, provenientes de la pobla- 
ción de interés. 

Dado que se supone que las muestras son aleatorias, la distribución de una esta- 
dística es un tipo de modelo de probabilidad conjunta para variables aleatorias inde- 
pendientes, en donde cada variable posee una función de densidad de probabilidad 
igual a la de las demás. De manera general, la distribución de muestreo de una esta- 
dística no tiene la misma forma que la función de densidad de probabilidad en la dis- 
tribución de la población. 

Para ilustrar lo anterior, considérese la distribución de muestreo de una estadísti- 
ca para los 20 promedios muéstrales dados en la tabla 7.1. Mediante el empleo de los 
métodos del capítulo uno, se agrupan las 20 realizaciones en cinco clases y se ob- 
tienen las frecuencias relativas que aparecen en la tabla 7.2. 



TABLA 7.1 Tiempos de duración (en horas) observados para una muestra aleatoria de bate- 
rías 



Número de muest 


ra 1 


2 


3 


4 


5 


6 


7 


8 


9 


10 




163 


159 


150 


136 


136 


138 


155 


158 


135 


166 




132 


144 


125 


157 


146 


145 


145 


150 


144 


142 




154 


139 


139 


168 


158 


150 


151 


153 


148 


156 




152 


14Ó 


134 


158 


154 


138 


154 


151 


150 


154 




148 


144 


156 


167 


156 


158 


141 


138 


148 


160 


Promedio 






















de la muestra 


149.8 


146.4 


140.8 


157.2 


150.0 


145.8 


149.2 


150.0 


145.0 


155.6 


Número de muestra 1 1 


12 


13 


14 


15 


16 


17 


18 


19 


20 




150 


154 


148 


149 


150 


147 


158 


164 


153 


135 




152 


150 


166 


158 


138 


151 


147 


136 


160 


150 




163 


141 


148 


139 


153 


161 


141 


143 


156 


164 




161 


159 


149 


146 


151 


142 


130 


137 


142 


152 




139 


153 


154 


136 


161 


149 


147 


152 


156 


144 


Promedio s 






















de la muestra 


153.0 


151.4 


153.0 


145.6 


150.6 


150.0 


144.6 


146.4 


153.4 


149.0 



222 Muestras aleatorias y distribuciones de muestreo 

TABLA 7.2 Grupos y frecuencias relativas para las 20 medias muéstrales 



Límites de clase 



Frecuencia 
de ¡a clase 



Frecuencia relativa 



140.6-144.0 
144.1-147.5 
147.6-151.0 
151.1-154.5 
154.6-158.0 

Total 



1 
6 

7 
4 

2 

20 



0.05 
0.30 
0.35 
0.20 
0.10 

1.00 



A partir de estas frecuencias relativas es evidente que la más alta concentración 
de tiempos de duración promedio se encuentra entre 147.6 y 15 1 horao, e.. donde los 
tiempos de duración promedio por debajo de 1^ i horas o por encima de 154.6 tienen 
una probabilidad muy pequeña. La distribución de muestreo de una estadística hace 
posible este tipo de análisis de probabilidad, esencial para valorar el riesgo inherente 
cuando se formulan inferencias. 

Posteriormente se enunciarán algunos teoremas básicos que permiten obtener las 
distribuciones muéstrales de estadísticas importantes como la media X y la varianza 
S 2 muestral. Se usará de manera frecuente la función generadora de momentos, dado 
que ésta determina unívocamente una distribución de probabilidad. 

Teorema 7.1 Sea X, , X 2 , ..., X„ un conjunto de n variables aleatorias indepen- 
dientes cada una con funciones generadoras de momentos m x¡ (t), m X2 (t), ..-., m Xn (t). 
Si 

Y = a,Z, + a 2 X 2 + ■■■ + a„X n , 
en donde a,, a 2 , ..., a„ son constantes, entonces: 

m Y (t) = m Xl (a¡t)m x Xa 2 t) ■■■ m Xn (a,,t). 

Demostración: Mediante el empleo de la definición y la hipótesis de independen- 
cia, se tiene 

m r (t) = EfexpMa.A', + a 2 X 2 + ■■■ + a„X„)]} 

= EiexpitüiXt) exp(ta 2 X 2 ) ■■■ exp(ta„XJ] 

= E[txp{ta,X x )}EWxp(ta 2 X 2 )] - £[exp(/a„*„)] 

= m Xt (a,t)m x ,(a 7 t) -•• m Xn (a,,t). 

De esta forma, la función generadora de momentos de una combinación lineal de n 
variables aleatorias independientes es el producto de las correspondientes funciones 
generadoras de momentos con argumentos iguales a las constantes de tiempo /. 



7.3 Distribuciones de muesíreo de estadísticas 223 

Teorema 7.2 Sea X¡, X 2 , ..., X n un conjunto de variables aleatorias independien- 
tes normalmente distribuidas con medias E(X¡) = /j.¡ y varianzas Var(X¡) = a ] 
para / = 1, 2, ..., n. Si j i;;r i; 

Y - a¡X t + a 2 X 2 + -v + a„X n , 

.. . \ ,. ., 

en donde a t , a 2 , ..., a„ son constantes, entonces y es una variable aleatoria con 

distribución normal y media 

E(Y) = a,^, + a 2 (i, 2 + — + a„pi„ 
y con varianza 

VaiíY) = a]cr] + a\a\ + ••• + aW n . 

Demostración: Dado que X¡ se encuentra normalmente distribuida, su función ge- 
neradora de momentos es 

m x ,(t) = exp[/i,/ + (cr 2 t 2 )/2]. 

De acuerdo con el teorema 7.1, la función generadora de momentos de yes 

m Y (t) = m x ,{a¿)m Xl (a 2 t) ••• m x Sa„t) 

*= exp[/u,íM + {a]a\t 2 )/2} -•• exp[/u,,a n í + {a 2 n a 2 „t 2 )/2} 



= exp 



'¿^+(< 2 ¿^)/2 



Por lo tanto, Y se encuentra normalmente distribuida con media S" = , a,/L¿, y vaii&n- 
za2?_,fl?(r?. 

Del teorema 7.2 se desprende que si a¡ = 1 para í = 1, 2, ... /í, entonces la 
suma de variables aleatorias independientes normalmente distribuidas también 
posee una distribución normal con media y varianza igual a la suma de las medias 
y las varianzas de cada una de las variables aleatorias. La mayor parte de las veces 
el resultado anterior se conoce como la propiedad aditiva de la distribución nor- 
mal. Debe notarse que la hipótesis de normalidad no es necesaria para obtener las 
fórmulas de la media y la varianza de y en el teorema 7.2. De hecho, con base en el 
teorema 6. 1 , si X,, X 2 , ..., X„ es un conjunto de n variables aleatorias IID con me- 
dias E{X¡) = (jl¡ y varianzas Var(X¡) = a], i = 1, 2, .... n, entonces para 
Y = a i X i + a 2 X 2 + ••• + a„X„, 

n 

E(Y) = 2'i.H, 
y (7-2) 

Var(Y) = j, afá. 



224 Muestras aleatorias y distribuciones de muestreo 

I 
en donde, de nuevo, a, , a 2 , ..., a„ son constantes. J| 

Del teorema 7.2 surgen algunas aplicaciones interesantes. La siguiente constituye 

un ejemplo típico. 

Ejemplo 7.2 Supóngase que para un árbol de levas y un cojinete, el diámetro exter- 
no del primero A", y el diámetro interno del segundo A" 2 son variables aleatorias inde- 
pendientes con una distribución normal, con medias £(A",) = 3.25 cm, E(X 2 ) = 3.3 
cm y desvaciones estándar d.e.(X,) = 0.005 cm y d.e.(X 2 ) = 0.006 cm, respectiva- 
mente. El interés recae en la diferencia entre X 2 y A", , que es el espacio que existe 
entre el diámetro interno del cojinete y el diámetro externo del árbol de levas. El es- 
pacio se representa por Y t donde Y = X 2 - A', . Si al armarse una máquina existe un 
apareamiento aleatorio entre los árboles de levas y los cojinetes, debe obtenerse el 
valor del espacio que existe entre éstos y om , de manera tal que la probabilidad de 
que Y tenga un valor menor que éste sea de 0.004. 

Dado que X, y X 2 son variables aleatorias independientes, se aplica el teorema 
7.2 con a, = - 1 y a 2 = 1. De esta forma 

E(Y) = (l)£(A%) + (-!)£(*,) = 0.05, 



d.e.(Y) = V(D 2 (0.006) : + ( - 1 ) 2 (0.005) 2 = 0.00781. 
Esto es; Y - M0.05, 0.00781). Entonces 

PiY<y .oo*) = 0-004 

o 

P[Z < (y nMH - 0.05)/0.0078l] = 0.004, 

pero 

P[Z< -2.65] = 0.004; 

así pues 

í.vo.004 - 0.05)/0.00781 = -2.65, 

y Vo.txvt. De acuerdo con lo anterior se necesita un espacio no menor de 0.0293 cm 
para las condiciones dadas. 

7.4 La distribución de muestreo de X 

Una de las estadísticas más importantes es la media de un conjunto de variables alea- 
torias independientes e idénticamente distribuidas. Esta estadística tiene un papel 
muy impórtente en problemas de toma de decisiones para medias poblacionales des- 
conocidas. Sea A'|. X 2 X„ una muestra aleatoria que consiste de n variables 

aleatorias IID tales que E(X,) = ¡u y Var(X¡) = a 1 para toda ; = 1,2 /;. 

Entonces la estadística 

X = (A, - A\ + ••• + X„)/n (7.3) 



7.4 La distribución de maestreo de X 225 

se define como la media de las n variables aleatorias IID o, sencillamente, me- 
dia muestral. Nótese que una vez que se conocen las Realizaciones jc, , x 2 x n de 

X,, X 2 X„, respectivamente, la realización x de X se obtiene promediando los 

datos muéstrales. Si en (7.2) a¡ = \/n, i = 1,2 n entonces el valor esperado y 

la varianza de X son 

_ r 

E(X) = 2-M = «(/*/«) = /* (7-4) 



_ " i 
Var{X) = 2 -o" 2 = "(cr 2 //! 2 ) = tr 2 /". (7.5) 

., , •= i " 

respectivamente, en don^e /j y o -2 son la media y la varianza de la distribución de la 
población a partir de la cual se obtuvo la muestra. Con respecto a este resultado, lo 
importante es recordar que es válido sin importar la distribución de probabilidad de 
la población de interés siempre y cuando la varianza tenga un valor finito. A partir 
de (7.4), la desviación estándar de X es 

d.e. (X) = <j/\JV, (7.6) 

la cual, en algunas ocasiones, recibe el nombre de error estándar de la media. 

Nótese que conforme el tamaño de la muestra crece, la desviación estándar, y de 
esta forma la variabilidad, de X disminuye. En otras palabras, si el tamaño de la 
muestra crece, la precisión de la media muestral para estimar la media poblacional 
aumenta. Por ejemplo, si se extrae una muestra aleatoria de n = 25, X deberá tener 
una precisión de a/25 = 5 veces más de estimar la media poblacional que la que 
tendría una sola observación. Lo anterior es una propiedad muy ventajosa de la es- 
tadística X dado que asegura que para una muestra relativamente grande, se espera 
que la realización de X se encuentre muy cercana a la media poblacional fi. Como 
ilustración adicional, supóngase que se calcula la desviación estándar de X para dis- 
tintos valores de n con a = 10 y se grafican los puntos resultantes, como se indica 
en la figura 7.1 . Por la naturaleza de 7.6, la desviación estándar de X sufre una dis- 
minución sustancial en su valor conforme n toma valores cada vez más grandes, 
pero si n es mayor de 30 o 40 este comportamiento cesa. Por lo tanto, en esencia, un 
tamaño grande de muestra no resulta razonable en cuanto al costo, si se hacen infe- 
rencias con respecto a (¿ con base en X. 

A continuación se enuncia y demuestra un teorema con respecto a la distribución 
de muestreo de X si la muestra se encuentra constituida por n variables aleatorias in- 
dependientes normalmente distribuidas. 



Teorema 7.3 Sea X u X 2 , .... X„ una muestra aleatoria que consiste de n va- 
riables aleatorias independientes normalmente distribuidas con medias E(X¡) = p- 

y varianzas Var(X¡) = a 2 , i = 1, 2 n. Entonces la distribución de la media 

muestral X es normal con media ¡x y varianza a 2 /n. 



226 Muestras aleatorias y distribuciones de muestreo 



d.e.(X) 


; ." i * 




■ 'í ,i ■ .■ 


."..'.' '"í-v •' 


-■ ■• ; ■•■■--', "■ • 


< 


10 










■ ' 




8 


4 












6 














4 














2 


i i 


1 _ 


1 










i i 


i • 


i i 



10 20 30 40 50 60 70 80 90 100 



FIGURA 7.1 Comportamiento típico de la desviación estándar de X como función del ta- 
maño de la muestra 



Demostración: Este teorema es un corolario del teorema 7.2. Esto es, sea a¡ = \/n\ 
dado que las medias y las_varianzas son iguales, respectivamente, la función gene- 
radora de momentos de X es: 



mX(t) = exp 



'2V+ ' 2 2 



L í=i 



1 



= c\p[fit + (/V)/2/i], 

que es la función generadora de momentos de una variable aleatoria normalmente 
distribuida con media /x y varianza <r 2 /n. De esta forma, la función de densidad de 
probabilidad de X cuando se muestrea una población cuya distribución es normal, 
está dada por 



f(x\ fi, tr/V") = 



Va 



exp 



ira 



n(x - fxf 
2cr 2 



=C < X < x . 



(7.7) 



Ejemplo 7.3 Se tiene una máquina de llenado para vaciar 500 gr de cereal en una caja 
de cartón. Supóngase que la cantidad de cereal que se coloca en cada caja es una 
variable aleatoria normalmente distribuida con media 500 gr y desviación estándar 
igual a 20 gr. Para verificar que el peso promedio de cada caja se mantiene en 500 gr 
se toma una muestra aleatoria de 25 de éstas en forma periódica y se pesa p' contení- 



7.4 La distribución de muestreo de X 227 

do de cada caja. El gerente de la planta ha decidido detener el proceso y encontrar la 
falla cada vez que el valor promedio de la muestra sea mayor de 510 gr o menor de 
490 gr. Obtener la probabilidad de detener el proceso. >■-• * * 

Sean X X ,X 2 , ..., X 2 ¡ variables aleatorias independientes normalmente distribui- 
das, las cuales representan la cantidad de cereal contenido en las cajas de una mues- 
tra aleatoria dada. Por hipótesis A", ~ W(500, 20), / = 1, 2, ..., 25. Por el teo- 
rema 7.3, el promedio muestral A" también se_encuentra normalmente distribuido 
con media 500 y desviación estándar 20/\/25 = 4. La probabilidad deseada es 
igual a uno menos la probabilidad de que X se encuentre entre 490 y 510 gr; de esta 
forma 

/^Detención del proceso) = 1 - P(490 < X < 510) 

„/490 - 500 „ 510 - 500 
= i _ p\ <Z< : — 



= 1 - P(-2.5<Z<2.5) 
= 0.0124. 

Ejemplo 7.4 Demostrar que si X¡, X 2 , ..., X„ son n variables aleatorias indepen- 
dientes exponencialmente distribuidas con función de densidad de probabilidad 

f(x;6) = -exp(-jr/0) x > 0, 

u 

entre X tiene una distribución gama. 

Recuérdese que la función generadora de momentos de una variable aleatoria ex- 
ponencialmente distribuida es (1 - 6t)~ l . De esta forma, para cada X¡ de la 
muestra, 

m Xi (t) = (l-6t)-'. 

Del teorema 7.1 con a, = l/n, i = 1, 2, ..., n, se desprende que la función gene- 
radora de momentos de la media muestral X es 

mxU) = m Xl (t/n)m X2 (t/n) ■■■ m Xn {fJn) 

= [1 - («//«)]" '[1 - (0///!)]-' - [1 - (0t/n)]-> 
= [1 - (8t/n)]-\ 

Pero la expresión anterior es la función generadora de momentos de una distribu- 
ción gama con parámetro de forma n y parámetro de escala 6/n. De acuerdo con lo 
anterior, cuando se muestrea una población^uya distribución de probabilidad es ex- 
ponencial, la densidad de probabilidad de X está dada por 

' n" 

f(T, n. 6/n) = — -— .v"" ' exp( -nx/6), x > 0. (7-8) 



228 Muestras aleatorias y distribuciones de muestreo 

Nótese que si en las expresiones (5.47) y (5.48) se reemplaza a con n y con d/n 
se obtiene 

E(X) = n- = 6 (7.9) 

n 



— 6 

Var(X) = n— = 6r/n, (7.10) 

n~ 

como era de esperarse ya que d y d 2 son la media y la varianza, respectivamente, de 
una variable aleatoria con distribución exponencial. 

De la sección 5.5, recuérdese que si el parámetro de forma de una distribución 
gama tiene un valor grande, entonces los valores de probabilidad para una variable 
aleatoria gama pueden aproximarse, en forma adecuada, por una distribución nor- 
mal. Dado que r m , muestrear una distribución exponencial con parámetro 8 X tiene 
una distribución gama con media 0, y desviación estándar 0/y/n » entonces, para n 
grande 

Z = ^-f (7.11) 

e/y/n 

es, en forma aproximada, N(0, 1). 

Ejemplo 7.5 Con base en los experimentos, la duración de un componente eléctrico 
se encuentra exponencialmente distribuida con una vida media de 100 horas. Si del 
proceso de producción se toma una muestra aleatoria de 16 componentes, ¿cuál es 
la probabilidad de que la vida media muestral sea mayor de 120 horas? 

De (7.9) y (7_J0), la media de X en 100 horas y la desviación estándar tiene un 
valor de 100/\/l6 = 25 horas. Si se supone que el valor del parámetro de forma n 
= 16 es suficientemente grande para emplear la aproximación dada por (7.11), se 
tiene 

P(X> 120) = P{z> m ~ 5 m ) = 0.2119. 

Por comparación, la probabilidad de que X > 1 20 pueda calcularse mediante el 
empleo directo de la función gama incompleta l(ti, p), se encuentra definida por 
(5.55); en este caso 11 = (16)(120)/100\/Í6 y P = 16 - 1 . De esta forma: 

P(X> 120) = 1 - /(4.8, 15) = 0.2021. 

De manera muy breve se estableció ya que la distribución de muestreo de X es 
normal cuando éste se lleva a cabo a partir de una población que tiene una distribu- 
ción, ya sea normal o exponencial. ¿Qué ocurre cuado no puede especificarse la 
distribución de probabilidad de la población a partir de la cual se obtiene la muestra? 
Es decir, ¿cuál es la distribución de muestreo (aproximada) de A", sin tener en cuenta 



S' 



7.4 La distribución de muestreo de X 229 

la de las variables aleatorias de la muestra? Para obtener una idea con respecto a la 
distribución de muestreo de X cuando el modelo de probabilidad de la población de 
interés no se especifica, considérese un estudio de simulación en el que los valores 
aleatorios se generan mediante los procedimientos dados en la sección 5.9. 

Supóngase que se generan 50 muestras, cada una de tamaño n = 10, a partir de 
una distribución N de Poisson con parámetro X = 2. Para cada muestra se calcula la 
media muestral, produciéndose así 50 realizaciones de la estadística X. Estos valores 
se agrupan y se determinan sus frecuencias relativas. Se repite el proceso pero con 
n = 40 como tamaño de la muestra en lugar 10. Se repite el proceso pero en lugar de 
generar valores aleatorios a partir de una distribución de Poisson, se generan a partir 
de una distribución uniforme sobre el intervalo (0,1). En la figura 7.2 se ilustra la 
distribución de frecuencia relativa para cada uno de los cuatro casos. Nótese que 
cuando n = 10, no existe un patrón típico en la distribución de X. Sin embargo, cuan- 
do n = 40 la distribución de X definitivamente toma una forma de campana y de esta 
forma se procede a una distribución normal, tanto para el modelo de Poisson como 
para el uniforme. 



0.15 






0.15 - 


—i 






0.10 












0. 10 j- 


— 










































0.05 




























0.05 h (~ 




























> 










— 






1 




a) Poisson, «=10 


- 


b) Uniforme n = 10 














0.20 


- 






0.20 






0.15 


- 








0.15 






0.10 


- 










— I 0.10 




__ 




















1— j 




0.05 


- 
















0.05 




— 


■■ 




















TI 








1 




c) Poisson, n = 40 










d) Uniforme n = 40 



FIGURA 7.2 Distribuciones de frecuencia relativa de A' cuando el muestreo se lleva a cabo 
sobre una distribución de Poisson o una uniforme para n = 10 y n = 40 



230 Muestras aleatorias y distribuciones de muestreo 

Con base en este limitado estudio de simulación, parece ser que para un valor 
grande de n, la distribución de X es aproximadamente normal. De hecho, no impor- 
ta el tipo de modelo de probabilidad a partir del cual se obtenga la muestra; mientras 
la media y la variánza existan, la distribución de muestreo de X se encontrará apro- 
ximada por^ N( fi, a/y/ñ) para valores grandes de n. 

Lo anterior constituye uno de los más importantes teoremas en inferencia esta- 
dística, y se conoce como teorema central del límite. 

Teorema 7.4 Sean X X ,X 2 , .... X„ n variables aleatorias IID con una distribución 
de probabilidad no especificada y que tienen una media fi y una variánza a 2 finita. 
El promedio muestral X = (X t + X 2 + ■•• + X n )/n tiene una distribución con 
media y. y variánza cr 2 /n que tiende hacia una distribución normal conforme n tien- 
de a oo. En otras palabras, la variable aleatoria (X - n)/{a/\fn) tiene como límite 
una distribución normal estándar. (En un apéndice al final de este capítulo se pro- 
porciona un esbozo de la demostración áz este teorema.) 

La esencia del teorema central del límite recae en el hecho de que para n grande, 
la distribución de (X — n)/(o-/\/n) es, en forma aproximada, normal con media 
cero y desviación estándar uno sin importar cuál sea el modelo de probabilidad a 
partir del que se obtuvo la muestra. Debe notarse que si el modelo de probabilidad 
de la población es semejante a una distribución normal (esto es, si es simétrico y existe 
una concentración relativamente alta alrededor del punto de simetría), la aproxima- 
ción normal será buena aun para pequeñas muestras. Por otro lado, si el modelo de 
la población tiene muy poco parecido a una distribución normal (por ejemplo, existe 
una alta asimetría), la aproximación normal sólo sera adecuada para valores rela- 
tivamente grandes de n. En muchos casos, puede concluirse de forma segura, que 
la aproximación será buena mientras n > 30. Por lo tanto, la variable alea- 
toria 

X — LL 

Z = -—£ (7.12) 

0-/V" 

se emplea para formular inferencias acerca de /x cuando se conoce el valor de la va- 
riánza poblacional o 2 . La variable Z es 7V(0, 1) cuando el muestreo se lleva a cabo 
sobre una población que tiene una distribución normal y es, en forma aproximada, 
N(0, 1) para cualquier otro modelo cuando n es grande. 

Ejemplo 7.6 Supóngase que el número de barriles de petróleo crudo que produce 
un pozo diariamente es una variable aleatoria con una distribución no especificada. 
Si se observa la producción en 64 días, seleccionados en forma aleatoria, y si se sabe 
que la desviación estándar del número de barriles por día es a = 16, determínese la 
probabilidad de que la media muestral se encuentre a no más de cuatro barriles del 
verdadero valor de la producción por día. 

Puesto que n es lo suficientemente grande, la distribución de X es,_en forma 
aproximada, normal con media /a y desviación estándar <t/V« = !6/\/64 = 2. En 



7.5 La distribución de muestreo de S? 231 

forma equivalente, la distribución de Z = (X - /¿)/2 es, aproximadamente, 
N(0, 1). De acuerdo con lo anterior, la probabilidad deseada es: 

P(¡X - /*l<4) = P(fi -4<X<n + 4) ■/'■[<; ;U 

\ ' = P[(H - 4 - M )/2 < Z < (m + 4 - ¿0/2] 

■-. '" . : ' = px-2<z<% ' v ' , ' ru ;-" 

= 0.9544. 



7.5 La distribución de muestreo de S 2 

Otra estadística importante empleada para forr"ul? r inferencias con respecto a las 
varianzas de la población es la varianza muestral denotada por S 2 . Recuérdese que 
S 2 es una medida de la variabilidad e indica la dispersión o extensión entre las obser- 
vaciones. Dado que la dispersión es una consideración tan importante como la ten- 
dencia central, el significado de S 2 para formular inferencias de a 2 es comparable 
con el que tiene A" para formular inferencias con respecto a ¡jl. 

En esta sección se desarrollará la distribución de muestreo de S 2 cuando éste se 
lleva a cabo sobre una población que tiene una distribución normal. Para comenzar, 
es necesario suponer que /¿ es conocida y o- 2 no. Así, S 2 se encuentra definida por 

S 2 = ¿ (X, - tf/n, (7.13) 

en donde X lt X 2 , ■-., X„ constituye una muestra aleatoria de una distribución nor- 
mal con media /i y varianza cr 2 desconocida. Para determinar una distribución de 
muestreo que permita hacer inferencias sobre cr 2 con base en S 2 definida por (7.13), 
se enuncia y demuestra el siguiente teorema. 

Teorema 7.5 Sean A",, X 2 , ..., X„ una muestra aleatoria de una distribución nor- 
mal con media /* y varianza o 2 . La distribución de la variable aleatoria. 

n 

¡= i 
es del tipo chi-cuadrada con n grados de libertad. 

Demostración: Dado que X¡ ~ N{fi, a), i = 1, 2, ..., n, Z¡ = (X, - ii)/& 
define n variables aleatorias normales estándar independientes, se tiene: 



Y=2¿Í- 



232 Muestras aleatorias y distribuciones de muestreo 

Del teorema 7.1, 

m Y {t) = m^Om^t) — m z i(t) 

= (1 - 2/)- ,/2 (l - 2tY m -(I - 2t)- y2 , 

dado que el cuadrado de tina variable aleatoria normal estándar tiene una distribu- 
ción chi-cuadrada con un grado de libertad (véase el ejemplo 5.14). De esta forma se 
tiene 

m Y {t) = (1 - 2ty nn , 

que es la función generadora de momentos de una distribución chi-cuadrada con n 
grados de libertad. De acuerdo con lo anterior, Y ~ X 2 „. 

Ejemplo 7. 7 Considérese una medición física proporcionada por un instrumento 
de precisión, en donde el interés recae en la variabilidad de la lectura. Supóngase" 
que, con base en la experiencia, la medición es una variable aleatoria normalmente 
distribuida con media 10 y desviación estándar igual a 0.1 unidades. Si se toma una 
muestra aleatoria procedente del proceso de manufactura de los instrumentos de ta- 
maño 25, ¿cuál es la probabilidad de que el valor de la varianza muestral sea mayor 
de 0.014 unidades cuadradas? 

Con base en el teorema 7.5, la probabilidad de que S 2 > 0.014, cuando el 
muestreo se lleva a cabo sobre MÍO, 0.1) con n = 25 es igual a la de 

P(Y>ns 2 /a- 2 ) = P|T>(25)(0.OI4)/0.OI] 
= P(Y>35) 
= 1 - P(Y *s35) 

en donde Y ~ X25 . De la tabla E del apéndice, el valor deP(Y =s 35) es, aproxima- 
damente, 0.9; de esta forma 

/>(K>35) = 0.1, 

y la probabilidad de que el valor de la varianza muestral sea mayor de 0.014 unida- 
des cuadradas, es alrededor de 0. 1 para las condiciones dadas. 

Desde un punto de vista práctico, la varianza muestra tal como se encuentra defi- 
nida por (7.13) tiene poco uso, ya que es muy raro que se conozca el valor de la media 
poblacional /*. De acuerdo con lo anterior, si se muestra una distribución normal con 
media \l y varianza o- 1 , la varianza muestral se define por 

n 

S 2 = £(*, -X) 2 /(n - I). (7.14) 

í— I 

En el capítulo ocho se verá por qué se emplea el divisor (n - 1). El reemplazo de la 
media desconocida /t por la muestral X da origen a la presencia de otra estadística en 
la definición de S~. De esta manera, para determinar la distribución de muestreo de 



I 



7.5 La distribución de muestreo de S 2 233 

S 2 , como se encuentra definida por (7.14), y con base en una muestra aleatoria pro- 
veniente de una distribución normal, debe tomarse en cuenta el promedio de la mues- 
tra A. Como resultado se tiene que la distribución de muestreo de (n — 1 )S 2 /a 2 
es también una distribución chi-cuadrada con n — 1 grados de libertad. A fin de 
probar lo anterior, primero se demostrará un teorema muy útil que involucra la 
suma de dos variables aleatorias independientes chi-cuadrada y entonces se escri- 
be la expresión (7.14) en una forma equivalente, con objeto de aprovechar este teo- 
rema. 

Teorema 7.6 Si A", y A 2 son dos variables aleatorias independientes y cada una 
tiene una distribución chi-cuadrada con v i y v 2 grados de libertad respectivamen- 
te, entonces: 

" " Y = A, +' X 2 
también tiene una distribución chi-cuadrada con c, + v 2 grados de libertad. 

Demostración: del teorema 7. 1 , la función generadora de momentos de Y es 

m Y (t) = m Xl (t)m x it) 

= (1 - 2/)-"' /2 (l - 2tr" 2/1 
= (1 - 2/)-"" + " 3,/2 , 

que es la función generadora de momentos de una variable aleatoria chi-cuadrada 
con 'j>, -.+ v 2 grados de libertad. 

Ahora se deducirá la distribución de muestreo de (n - l)S 2 /cr 2 ; de (7.14) se 
tiene que 

n 

(n - \)S 2 = 2 (A, -X) 1 ; 
pero 

n n 

2 (A",- - A) 2 = 2 (A, - ¡x - X + M ) 2 

í = 1 í = I 

n 

= 2 [(A,- - M ) - (A - ,x)f 

i= I 
n 

= 2 KA, - m) 2 - 2(A, - M )(A - ¡i) + (X - /i) 2 ] 

/= I 
n n 

= 2 (A, - ij.) 2 - 2(A - M ).2 (A, - /*) + n(X - ix) 2 

n 

=r £ (X; - ix? - 2(X - ix)n(X - /i) + n(X - i¿) 2 

¡=\ 
n 

- 2 (A,- - ix) 2 - n(X - n) 2 . 



n 



234 Muestras aleatorias y distribuciones de muestreo 
De esta forma 



(n - 1)5 2 4 n(X - M ) 2 = 2 (*/ ~ M) 2 . 



Al dividir ambos miembros de la expresión anterior por la varianza poblacional <r 
se tiene 

(n - \)S 2 nQC-'tf ir^VC-tif 
a 2 + o- 2 ~ <r 2 



(»- l)S 2 , IX- mV Sr-.W-M)' 



+ 



3 • (7.15) 



o" \a/y/nj o" 

Del teorema 7.15, se desprende que 2¡-' = i (A 1 , - n) 2 /<r 2 tiene una distribu- 
ción chi-cuadrada con n grados de libertad De manera similar, [(X - ii)/a-/\Jn] 2 
también posee una distribución chi-cuadrada con un grado de libertad, dado 
que (X - fí)/(oi/yfñ) es /V(0, 1). Por lo tanto, si se supone que (n - \)S 2 /a 2 y 
[(X - ^/a/y/nfson variables aleatorias independientes, entonces, por el teorema 
7,6, cuando se muestrea una población cuya distribución es normal con media y va- 
rianza desconocida, la distribución de (n - l)S 2 /er, es chi-cuadrada con n — gra- 
dos de libertad. Para demostrar la independencia se invita al lector a que consulte la 
referencia [3]. La función de densidad de probabilidad de Y = (n - l)S 2 /o- 2 se 
desprende de (5.58) y está dada por: 



f(y,n - 1) = { 



1 ■,y lí "- [)m - i exp(-y/2) y>0, 



IK* - l)/2]2 ( "-»^ ^ "*' J "' ( 7.16) 

k para cualquier otro valor. 



Nótese que, dado que Y ~ X 2 _,, E(Y) = n - 1 y Var(Y) = 2(n - 1). 
Además, ya que Y = (n - \)S 2 /<t 2 , S 2 = <r 2 Y/(n - 1). Por lo tanto 

2 

E(S 2 ) = E[cr 2 Y/(n - 1)] = — 2— £(K) = a\ (7.17) 

(n - I) 



4 -> 4 

Var(S 2 ) = Kar[o- 2 K/(« - 1)] = -? Var(Y) = -. (7.18) 

(n - I) - /i - 1 



7.6 La distribución í de Student 

Se recordará de la sección 7.5 que cuando se muestrea una distribución normal con 
desviación estándar conocida cr, la distribución de Z = (X - /t)/(<r/\//z) es N(0, 



,, .7.6 La distribución t de Student 235 

1). Desde un punto d& vista práctico, la necesidad de conocer a impide formular in- 
ferencias con respecto a /i debido a que generalmente no se conoce el valor de la 
desviación estándar des Ja población. Dada la> disponibilidad de una muestra aleato- 
ria, el camino lógico que se sigue en éste casó esieeñipiazar a- con una estimación s, 
que es el valor de la desviación estándar muestral S. Desafortunadamente, cuando lo 
anterior se lleva a cabo, la distribución dei {X - /¿JAS/ V") no es N(0, 1), aun 
cuando la muestra provenga de una distribución normal. Sin embargo, es posible de- 
terminar la distribución de muestreo exacta de (X - fi)/(S/y/n) cuando se 
muestrea N(fi, a), con n y o- 2 desconocidos. Para Analizar esta sección se exami- 
narán los aspectos teóricos de lo que se conoce como la distribución t de Student.* 
Supóngase que se realiza un experimento en que se observan dos variables aleato- 
rias Xy Z;X tiene una distribución chi-cuadrada con v grados de libertad y Z una 
distribución normal con media cero y desviación estándar uno. Sea T otra variable 
aleatoria que es función de X y Z, de manera tal que 

(7.19) 



y/X/v 

Es decir, Tse define como el cociente entre una variable aleatoria normal estándar y 
la raíz cuadrada de una variable aleatoria chi-cuadrada dividida por sus grados de li- 
bertad. El conjunto de todos los posibles valores de la variable aleatoria Tes el inter- 
valo (-oo, °°) puesto que los valores de Z se encuentran en éste y los valores de A' 
son positivos. El valor 



t = 



y/x/v 

recibe el nombre de valor de la variable aleatoria de / de Student. Lo anterior lleva al 
siguiente teorema. 

Teorema 7.7 Sea Z una variable aleatoria normal estándar y X una variable aleato- 
ria chi-cuadrada con v grados de libertad. Si Z y X son independientes, entonces la 
variable aleatoria 

Z 



T = 



y/X/v 



tiene una distribución /de Student con v grados de libertad y una función de densi- 
dad de probabilidad dada por 

f(t- V ) = r[( -l_ + 1)/2] [1 + (t 2 /v)}-^ + »'\ -oo< í <oc ) „>o. (7.20) 

yjnv I>/2) 

La deducción de la función de densidad / de Student aparece en un apéndice al final 
de este capítulo. 

De (7.20) se observa que el parámetro de la distribución / es v, que, al igual que 
para la distribución chi-cuadrada, recibe el nombre de grados de libertad. Para cual- 

* W. Gosset, desarrolló en 1908 la distribución t, quien publicó su trabajo bajo el seudónimo de "Student . 



236 Muestras aleatorias y distribuciones de muestreo 

quier v > O, la distribución / es simétrica con respecto al origen y la función de 
densidad tiene su valor máximo cuando f = 0. De la figura 7.3 es evidente que la 
forma de la función de densidad í de Student es muy similar a la de la densidad nor- 
mal estándar y con los extremos de la distribución/ menos pronunciados que los de 
la distribución normal. De hecho, conforme se tiene un número mayor de grados 
de libertad, la distribución / de Student tiende hacia la normal estándar. 
Puede demostrarse que el valor esperado de Tes 



E{T) = v>\, 
y la varianza está dada por 

Var(T) = v¡{v -2) v > 2. 



(7,21) 



(7.22) 



En la tabla F del apéndice se encuentran los valores cuantiles /, _„ „ tales que: 

P(T^t^„.„) = I /(/; v)dt = 1 - a, 0=£a=sl. (7.23) 

para los distintos valores de v y de las proporciones acumulativas seleccionadas 
1 - a. Por ejemplo, si v = 15. 

P(T^ /„.9o..5) = ñT* 1.341) = 0.90, 
W*£ fo.M.,j) = PXT*z 1.753) = 0.95, 
P(T ^ t 099 , l5 ) = P(T^ 2.602) = 0.99. 

Dado que la distribución / es simétrica con respecto al cero, para a > 0.5 los 
valores cuantiles /i _ a .„ serán negativos pero sus magnitudes serán las mismas que las 



Densidad normal estándar 




Densidad / de Student 
(^ =3) 



FIGURA 7.3 Comparación entre las densidades normal estándar y / de Student 



7.6 La distribución t de Student 237 

de los correspondientes valores que se encuentran en el lado derecho. De esta forma, 
para v = 15, .¡ -<.-. 

p(t^ to.io.is) =. w* -1.341) = o.io, J : ;;¿ t; , ■': 

s P(T* /0.05..5) = AT"* -1-753) = 0.05, ¡ - : 

PiT* /ooi.is) = AT"* -2.602) = 0.01. 

A fin de ilustrar la similitud que existe entre la distribución / de Student y la nor- 
mal estándar para valores relativamente grandes de v, en la tabla 7.3 se encuentra 
una comparación entre los valores cuantiles t y los correspondientes valores norma- 
les estándar para valores crecientes de v. Para a = 0.1 o 0.05, la concordancia se en- 
cuentra en aproximadamente O>05 unidades, aun para valores tan bajos de v como 
30. De hecho, muchos autores sugieren que, desde un punto de vista práctico, es 
muy poca la ganancia que se tiene al emplear la distribución t de Student en lagar de 
la normal estándar cuando v s* 30. 

Recuérdese que para formular inferencias con respecto a fi cuando el muestreo 
se lleva a cabo sobre una distribución normal con media y varianza desconocidas, se 
necesita determinar la distribución de (A' - n)/(S/\Jn). Cuando se muestrea una 
distribución N(fi, o-) se sabe, del teorema 7.3, que la distribución de (X - fi)/(a-/\/n) 
es N(0, 1). Para la misma condición, se sabe que, de (7.15) y del teorema 7.6, la 
distribución de (n - 1 )S 2 /cr es chi-cuadrada con n - 1 grados de libertad. Dado 
que puede demostrarse que X y S~ son independientes, del teorema 7.7 se despren- 
de que la distribución de 

X — /j. 



r/\Jn X - fí 



l (n - l)S 2 /a- <r/y/n \/S 2 ' 
(n - 1) 



7" = 



X — fj. 

(7.24) 



s/y/n 

es la t de Student con n - 1 grados de libertad. 



TABLA 7.3 Comparación entre los valores cuantiles de las distribuciones / de Student y nor- 
mal estándar 

a 'l-«. 20 'l-u..VI 'l-u 40 l \~u. 50 *-i " 

0.10 1.325 1.310 1.303 1.299 1-282 

0.05 ' 1.725 1.697 1.684 1.676 1.645 

0.01 2.528 2.457 2.423 2.403 2.326 



238 Muestras aleatorias y distribuciones de muestreo 

Ejemplo 7.8 El Departamento de Protección al Medio Ambiente asegura que, para 
un automóvil compacto en particular, el consumo de gasolina en carretera es de un 
galón por cada 45 millas. Una organización independiente de consumidores adquie- 
re uno de estos sutomóviles y lo somete a prueba con el propósito de verificar la cifra 
proporcionada por el DPMA. El automóvil recorrió una distancia de 100 millas en 
25 ocasiones. En cada recorrido se anotó el número de galones necesarios para reali- 
zar el viaje. Los 25 ensayos, el valor promedio y la desviación estándar, tuvieron un 
valor de 43.5 y 2.5 millas por galón, respectivamente. Si se supone que el número de 
millas que se recorre por galón es una variable aleatoria distribuida normalmente, 
con base en esta prueba ¿existe alguna razón para dudar de la varacidad del dato 
proporcionado por el DONA? 

Este problema ilustra algunas de las dificultades prácticas que pueden encontrar- 
se al ponerse en práctica la noción de muestra aleatoria. En forma ideal, se debieron 
seleccionar 25 carros de la misma marca, modelo y configuración de mot^r, Je ma- 
nera aleatoria, del mismo proceso de armado, de manera que fuese posible conside- 
rar el consumo de combustible como una variable aleatoria. Sin embargo, en éste y 
otros, lo anterior representa un costo prohibitivo. A pesar de lo anterior, debe deter- 
minarse la veracidad de la información proporcionada por el DPMA con base en la 
probabilidad. Esto es, si n fuese realmente igual a 45 millas por galón, ¿Cuál es la pro- 
babilidad de que se observe un valor de X no mayor de 43.5 millas por galón, con base 
en una muestra de tamaño 25 y una estimación de a igual a 2.5? 

De (7.24) puede verse que 

- J ~ f 1 - 43J ~ 45 
~ s/y/ñ ~ 2.5/V25 

= -3 

es un valor de la distribución / de Student con 24 grados de libertad. De la tabla F del 
apéndice se tiene que P(T =£ - 3) < 0.005. Es decir, si el valor verdadero de la me- 
dia es 45, la probabilidad de observar un valor de Trio mayor de — 3 unidades, es 
menor de 0.005. En cualquier caso, se ha observado algo que tiene una posibilidad 
de ocurrir menos de 5 en 1 000, o fi tiene un valor real menor de 45. Para esta si- 
tuación es preferible elegir la segunda explicación. 



7.7 La distribución de la diferencia entre dos medias muéstrales 

En muchas ocasiones surge la necesidad de comparar las medias de dos distribucio- 
nes distintas. Por ejemplo, supóngase que se tiene interés en comparar los tiempos 
de duración promedio de las baterías para automóvil "48 meses " de las marcas 
Mears and Sawbuck y J.C. Nickel. Las baterías vendidas por dos comerciantes, de ma- 
nera factible, se producen por compañías distintas y se fabrican bajo diferentes espe- 
cificaciones. Para cada una se supondrá que existe una distribución, diferente de la 
otra, que toma en cuenta la duración de las baterías. 



7. 7 La distribución de la diferencia entre dos medias muéstrales 239 

Sea -X una variable aleatoria que representa la duración del acumulador Mears 
and Sawbuck, en forma que X ~ N(fi x , a). De manera similar, sea y la correspon- 
diente variable aleatoria para las baterías J.C. Nickel tal que Y ~ N(ji Yr a). Nótese 
que se supone que las varianzas deXy Y son iguales. Se selecciona una muestra alea- 
toria de «^baterías de la marca Mears and Sawbuck y una muestra aleatoria de n Y 
de. la marca J.C. Nickel. Los acumuladores de las dos muestras se someten a la 
misma prueba de duración en la que se controlan todos los factores externos identifi- 
cados. Las diferencias observadas para los tiempos de duración en ambas marcas se 
deben sólo a la variabilidad inherente del proceso de fabricación respectivo. El inte- 
rés recae en formular una inferencia con respecto a la diferencia \l x ~ Mr entre las 
dos medias desconocidas. 

Un enfoque viable para este problema es formular la inferencia con base en la 
diferencia que hay entre las dos medias muéstrales X y 7. De acuerdo con lo ante- 
rior, se necesita obtener la distribución de X - Y cuando el muestreo se lleva a cabo 
sobre dos poblaciones normales independientes con varianzas iguales. Si se supone 
que el valor de la varianza a 2 se conoce del teorema 7.3, se sabe que la_distribución 
de X es normal con media ix x y varianza <r 2 /n x . La distribución de Y también es 
normal pero con media fi Y y varianza o*/n r . Dado que X y Y son variables alea- 
torias independientes normalmentedistribuidas, si a, = 1 y a 2 = - 1 en el teo- 
rema 7.2, la distribución de X - Y también es normal con media Hx ~ Mr y va- 
rianza (o- 2 /n x ) + (a^/ny) — <r\\/n x + \fn Y ). Por lo tanto, si se conoce el valor de 
cr 2 , la distribución de 

Z = *-y -Ü*- Mr ) (7.25) 



o- /— + - 
Y n x n 



Y 



es N(0, 1). La expresión (7.25) proporciona un camino adecuado por medio del cual 
se puede formular una inferencia con respecto a la diferencia de las medias poblacio- 
nales de dos distribuciones normales independientes con igual varianza. 

En el desarrollo de (7.25) se supuso que el valor de o- 2 era conocido. Sin embar- 
go, es poco probable conocer jel valor de cr para una situación real. Así pues, debe 
obtenerse la distribución de X - Y cuando el muestreo se lleve a cabo sobre dos 
poblaciones normales independientes con varianzas iguales pero desconocidas. Para 
cada una de las dos muestras aleatorias, pueden definirse las varianzas muéstrales 
S 2 X y S 2 Y dadas por (7.14). Dado que (n x - \)S 2 x /cr 2 y (n Y - l)5^/o- 2 son dos va- 
riables independientes chi-cuadrada, con n x — 1 y n Y - 1 grados de libertad 
respectivamente, por el teorema 7.6, la distribución de 

w = (n x - l)S 2 x + {n Y -l)S\ (? 26) 

a 2 cr 2 

también es chi-cuadrada con n x + n Y - 2 grados de libertad. De la expresión 
(7.19) se desprende el hecho de que el cociente de Z en (7.25) y la raíz cuadrada de W 
divida entre sus erados de libertad tiene una distribución / de Student con n x + n Y - 2 



240 Muestras aleatorias y distribuciones de muestreo 
grados de libertad. Esto es, 



[X- Y - Qi x - pr)]/*/- + - 

V n x n Y 



n x "r X-Y - (fi x - My ) 



J[(n x - l)S x + (n Y - l)S 2 r ]/¿ kn x - \)S\ + (n Y - \)S\ Í 1 | l\ 
~ n x + n Y - 2 v n x + n r — 2 \n x n Y ) 



T = X-Y-UL x -y r ) (?>27) 



V n x n Y 



en donde 



Si = [(n x - \)S\ + (n Y - \)S\]/(n x + n Y - 2) (7.28) 



que, en general, recibe el nombre de estimador combinado (pooled) de la varianza 
común o -2 . Nótese de (7.28) que S 2 P es el promedio, con factores de peso, de las dos 
varianzas muéstrales S x y S 2 Y , siendo los factores de peso los grados de libertad. De 
acuerdo con lo anterior, se puede formular una inferencia con respecto a la diferen- 
cia entre fi x y fi r con base en (7.27), cuando el muestreo se lleva a cabo sobre dos 
poblaciones cuyas distribuciones son anormales e independientes y en donde las va- 
rianzas son iguales pero sus valores no se conocen. 

En este momento es natural que el lector pregunte qué pasa si no es posible supo- 
ner que la varianza de las dos distribuciones sea la misma. Si las varianzas cr x y o> 
no son iguales, pero se conocen sus valores, el problema es sencillo. La distribución de 

z = X-Y -(K- yr) (7 29) 



15 


+ 


Ú 


V n x 




n Y 



aún es N(0, 1), por las mismas razones que llevaron a la expresión (7.25). Por otro 
lado, si se desconocen los valores de las varianzas y además éstos no son iguales, el 
problema es mucho más complicado y por esta razón no debe emplearse la expresión 
(7.27). En esencia, una situación como la anterior constituye lo que se conoce como 
el problema de Fisher-Behrens, el cual se encuentra más allá del alcance de este libro. 
Existen algunas aproximaciones a este problema, una de la cuales puede encontrarse 
en[l]. 



7.8 La distribución F 

De la sección 7.5, recuérdese que las inferencias con respecto a a 2 cuando se 
muestrea una distribución normal, se formulan con base en la estadística (n - \)S 2 
/o- 2 , la que tiene una distribución chi-cuadrada con n - 1 grados de libertad. En esta 
sección se H^carrollará la estadística anroniada para emplearse en la formulación de 



■ilfc 



r 7.8 La distribución F 241 

inferencias con respecto a las varíanzas de dos distribuciones normales independien- 
tes con base en las muestras aleatorias de cada una. Por último, se analizará la teoría 
de una distribución muy útil, la cual se conoce como distribución F. 

Supóngase un experimento en que se observan dos variables aleatorias indepen- 
dientes Xy Y, cada una con una distribución chi-cuadrada con v x y p 2 grados de li- 
bertad respectivamente. Sea F una variable aleatoria que es función de A" y y, de ma- 
nera tal que . \ 

F = %P. (7-30) 

Y/V 2 

Esto es, la variable aleatoria F es el cociente de dos variables aleatorias chi-cuadra- 
da, cada una dividida por sus grados de libertad. Lo anterior lleva al siguiente teorema. 

Teorema 7.8 Sean Xy Y dos variables aleatorias independientes chi-cuadrada 
con v x y v 2 grados de libertad, respectivamente. La variable aleatoria 

Y/v 2 
tiene una distribución F con una función de densidad de probabilidad dada por 



g(f; v,,v 2 )* = • 



rW2)i> 2 /2) J ("2 + ^) J>o, (73|) 

para cualquier otro valor 



(La deducción dé la función de densidad de probabilidad de F es similar a la de la / 
de Student y se deja como ejercicio para el lector.) 

La distribución F se caracteriza completamente por los grados de libertad v x y v 2 . 
Puede demostrarse que el valor esperado es 

E(F) = v 2 /(v 2 -2) v 2 > 2, (7.32) 

y la varianza está dada por 

Var(F) = — —=- v 2 > 4. (7.33) 

v t (v 2 - 2)> 2 - 4) 

La distribución F tiene asimetría positiva para cualesquiera valores de v¡ y v 2 , pero 
ésta va disminuyendo conforme v¡ y v 2 toman valores cada vez más grandes. 
En la tabla G del apéndice, se encuentran los valores cuantiles /i -<,.„,.„; > tales que 

P(F «/,_„.„„„) = J o g(f\ v uVl )df = 1 - a, *s a « 1 (7.34) 

* Se emplea g para denotar la función de densidad y de esta forma evitar cualquier confusión con res- 
pecto al argumento/. 



242 Muestras aleatorias y distribuciones de muestreo 

para las proporciones acumulativas seleccionadas 1 - a y distintas combinaciones 
de los grados de libertad del numerador v,, y del denominador v 2 del cociente 
(7.30). Por ejemplo, si> v,.— 5 y v 2 = iQ, entonces: 'a ■ - 

PÍF « A9o.5..o) = P{F « 2.52) = o'.90, 

' '/V > ¿/o¿m.ió)=>(F* 3.33) -0.95, • 

P\F "«/o.99j.io) = P(F ^ 5.64) = 0.99. 

Nótese que en la tabla G se encuentran los valores cuantiles /i -<,.*,.►: únicamente para 
a < 0.5. Si se desean los cuantiles del lado izquierdo (es decir, para a > 0.5) és- 
tos pueden encontrarse mediante el siguiente procedimiento: si la variable aleatoria F tie- 
ne una distribución Fcon v¡ y v 2 grados de libertad, entonces la variable F' ~ \/F 
también tiene una distribución Fpero con v 2 y v, grados de libertad. Puede verse 
que lo anterior es cierto, a par* : r de (7.30), 

F = —, — = 777—. - (7.35) 

X/Vj X¡v x 

y/ v'i 

Si se desean los valores cuantiles /,_„.„,.„, para a > 0.5, 

W */,_„.„.„) = P[^>T^ ) = 1 - «• 

\' J\-a.¡>\.vlJ 



P\^f^ — !=«• ( ? 36) 

Pero \/F = F' ~ F se encuentra distribuida con v 2 y v y grados de libertad. 
Entonces el a-ésimo valor cuantil de F' es tal que 

P(F'^ /;.„.„) = a. (7.37) 

Dado que (7.36) y (7.37) son idénticas, se sigue que 

J a.vz.n ~ I//1- u.i., .1-: 

y 

/.-„.„.„ = V/U.,. for«>0.5. (7.38) 

Como ejemplo, sea v, = 8 y v 2 = 12. Entonces 

PlF^fo.™ .«.,:) = PiFsz 1//¿.«,. 12J ,) = W« 1/3.28) = P(F s 0.305) = 0.05. 
o 

^ ^/o.üi.8.13) = P(F« I// ( ;. w . 12 .„) = P(F=s 1/5.67) = />(F=s 0.176) = 0.01. 



(n x - \)S\ 
ai 1 


/ (n x ~ 


- I) 


Sx/<*x 


(n Y ~ \)S\ 
o\ 1 


' in Y - 


1) 


S\/a\ 



, 7.8 La distribución L -E, 243 

Regresando al problema de desarrollar una estadística apropiada para usarse en 
la formulación de inferencias con respecto a las varianzas de dos distribuciones nor- 
males independientes, sea X lt X 2 , .-, X„ y una muestra aleatoria de variables aleato- 
rias independientes y normalmente distribuidas cada una con media Hxy yariariza 
a x ■ También sea K, , Y 2 Y„ Y un conjunto de n Y variables aleatorias indepen- 
dientes normalmente distribuidas, cada una con media fi Y y varianza &\. Si se supo- 
ne que las X y las Y son independientes, las^ estadísticas 

(n x - DSx/ax 



<n Y - \)S\/cr\ 

son dos variables aleatorias chi-cuadrada independientes con n x - 1 y n Y - 1 gra- 
dos de libertad, respectivamente. Entonces, por el teorema 7.8, se desprende que la 
variable aleatoria 



(7.39) 



tiene una distribución F con n x - 1 y n Y - 1 grados de libertad. 

Una aplicación de (7.39) es inmediata si se recuerda el problema general de la sec- 
ción 7.7. Esto es, el formular una inferencia con respecto a la diferencia entre dos 
medias poblacionales ya sea cuando se conocen las varianzas de las poblaciones o 
cuando se supone que se conoce, al menos, el cociente de éstas. Una forma factible 
de verificar la validez de esta suposición es mediante el empleo de (7.39). Si la supo- 
sición de que <t\ = a 2 Y es correcta, la estadística F dada por (7.39), se reduce a 

F = S X /S 2 Y . (7.40) 

Cuando se obtienen los valores de S 2 X y S 2 Y a partir de las muestras y se calcula el 
cociente (7.40), puede concluirse que la hipótesis de varianza iguales es falsa si el valor 
de este cociente es, de manera suficiente, distinto de 1. En otras palabras, si las dos 
varianzas son iguales, la probabilidad de observar un valor de F distinto, de manera 
suficiente, es pequeña. 

Para finalizar, debe notarse que en esta sección, así como en las secciones 7.5 y 
7.7, se desarrolló el material que se presentó bajo la hipótesis de realizar un 
muestreo aleatorio sobre poblaciones que tienen una distribución normal. En la rea- 
lidad, la hipótesis de normalidad puede o no ser justificable. Sin embargo, desde un 
punto de vista práctico, el lector debe darse cuenta que la diferencia entre la distribu- 
ción normal y el modelo de probabilidad de la población de interés es inversamente 
proporcional a las técnicas delineadas para formular inferencias. La afirmación an- 
terior es particularmente cierta cuando se formulan inferencias con respecto a las va- 
rianzas cuando se emplean la distribución chi-cuadrada o la F. 



I 



244 Muestras aleatorias y distribuciones de muestreo 

Referencias 

1. P. G. Hoel, Introduction to mathematical statistics, 4th ed., Wiley, New York, 1971. 

2. R. V. Hogg and A. T. Craig, Introduction to mathematical statistics, 4th ed., MacMillan, 
New York, 1978. 

3. B. W. Lindgren, Statistical theory, 3rd ed., MacMillan, New York, 1976. 

4. A. M. Mood and F. A. Graybill, Introduction to the theory of statistics, 2nd ed., 
McGraw-Hill, New York, 1963. 

Ejercicios 

7.1. Una firma de mercadotecnia envía un cuestionario a 1 000 residentes de cierto suburbio 
de una ciudad para determinar sus preferencias como compradores. De los 1 000 resi- 
dentes, 80 responden el cuestionario. ¿Lo anterior constituye una muestra aleatoria? 
Discutir los méritos de este procedimiento para obtener una muestra aleatoria. 

7.2. En una planta de armado automotriz se seleccionarán 50 de los primeros 1 000 automó- 
viles de un nuevo modelo para ser inspeccionados por el departamento de control de ca- 
lidad. El gerente de la planta decide inspeccionar un automóvil cada vez que terminan 
de armarse 20. ¿Este proceso dará como resultado una muestra aleatoria? Comente. 

7.3. Si X } , X v ..., X n constituye una muestra aleatoria, obtener las funciones de verosimili- 
tud de las siguientes distribuciones: 

a) De Poisson, con parámetro X; 

b) Hipergeométrica, con parámetro p; 

c) Uniforme en el intervalo (a, b);. 

d) N(n,(T). 

7.4. Repetir el ejercicio 7.3 para las siguientes distribuciones: 

a) Gama con parámetro a y $, 

b) Weibull con parámetro a y 6. 

7.5. Sea X,, X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es 
normal con media n y varianza a 2 desconocidas. De las siguientes, ¿cuáles son esta- 
dísticas? 

a) I.X¡ - n d) X] + X¡ - exp(X } ) 

b) aX, + aX 2 e) Xjv, i = 1,2, ..., n 

c) X¡, i = 1,2, .... n f) Z(X, - X)- 

7.6. Sean X,, X 2 , ■■■■ X„ n variables aleatorias independientes de Poisson con parámetros 
\,, \ 2 , .... \„, respectivamente. Mediante el empleo de la función generadora de mo- 
mentos, demostrar que la suma de estas variables también es una variable aleatoria de 
Poisson con parámetros \ i + \ 2 + ••• + \„- 

7.7. Sean X, y X 2 dos variables aleatorias independientes de Poisson con parámetros \, y 
\, respectivamente. Demostrar que la diferencia entre X x y X 2 no es una variable alea- 
toria de Poisson. 

7.8. Sean X, y X 2 dos variables aleatorias independientes binomial con parámetros n, y p, y 
n 2 y p, respectivamente. Demostrar que la suma de X, y X 2 es una variable aleatoria bi- 
nomial con parámetros n, + n 2 y p. 



Ejercicios 245 

7-9. Sean AYy X 2 dos variables aleatorias independientes distribuidas exponencialmente con 
el mismo parámetro 0. Demostrar que la suma de Xt y X 2 es una variable aleatoria gama 
con parámetro de forma 2 y parámetro de escala 0. 

7. 10. Para un determinado nivel de ingresos, el Departamento de Hacienda sabe que las canti- 
dades declaradas por concepto de deducciones médicas (A*,), contribuciones caritativas 
(X 2 ) y gastos varios (A"j), son variables aleatorias independientes normalmente distribui- 
das con medias $400, $800 y $100 y desviaciones estándar $100, $250 y $40, respectiva- 
mente. 

a) ¿Cuál es la probabilidad de que la cantidad total declarada por concepto de estas tres 
deducciones, no sea mayor de $1 600? 

b) Si una persona con este nivel de ingresos declara por concepto de estas deducciones 
un total de $2 100, ¿qué tan probable es tener una cantidad igual o mayor a este 
monto bajo las condiciones dadas? 

7.11. Una tienda de artículos eléctricos para el hogar vende tres diferentes marcas de refrige- 
radores. Sean A',, X 2 y X, variables aleatorias las cuales representan el volumen de ventas 
mensual para cada una de las tres marcas de refrigeradores. Si X, , A 2 y X } son variables 
aleatorias independientes normalmente distribuidas con medias $8 000, $15 O^X) y 
$12 000, y desviaciones estándar $2 000, $5 000 y $3 000, respectivamente, obtener la 
probabilidad de que, para un mes en particular, el volumen de venta total para los tres 
refrigeradores sea mayor de $50 000. 

7.12 En una tienda de servicio el tiempo total del sistema consta de dos componentes (el lap- 
so de tiempo que debe esperarse para que el servicio dé comienzo (X, ) y el lapso de tiem- 
po que éste dura (A r 2 )). Si A", y A" 2 son variables aleatorias independientes exponencial- 
mente distribuidas con un tiempo medio de 4 minutos cada una, ¿cuál es la probabilidad 
de que el tiempo total que tarda el sistema en proporcionar el servicio no sea mayor de 
15 minutos? (Sugerencia: consulte el ejercicio 7.9.) 

7.13. Sea X¡, X 2 , ..., X„ una muestra aleatoria de una población que tiene una distribución 
gama con parámetros a y 0. Mediante el uso de la_función generadora de momentos, 
demostrar que la distribución de la media muestral X también es de tipo gama, con pa- 
rámetros de escala y de forma iguales a na y 0/n respectivamente. 

7.14. Mediante el empleo de los resultados de la sección 5.9, generar números aleatorios para 
las distribuciones binomial y exponencial y usarlos para demostrar el teorema central del 
límite. De manera específica, para n = 10 y n = 40, generar 50 muestras de una distri- 
bución binomial con p = 0.4. Repetir el procedimiento anterior generando 50 muestras 
de una distribución exponencial con parámetro = 100. ¿Se ha demostrado el teorema 
central del límite en un grado razonable? 

7.15. Para cierta prueba de aptitud se sabe con base en la experiencia que el número de acier- 
tos es 1 000 con una desviación estándar de 125. Si se aplica la prueba a 100 personas se- 
leccionadas al azar, aproximar las siguientes probabilidades que involucran a la media 
muestral X. 

a) P(9S5 <X< 1015) c) P(X > 1020) 

b) />(960 < X < 1040) d) P{X < 975) 

7.16. Un contratista piensa comprar una gran cantidad de lámparas de alta intensidad a cierto 
fabricante. Éste asegura al contratista que la duración promedio de las lámparas es de 



246 Muestras aleatorias y distribuciones de muestreo 

1 000 horas con una desviación estándar igual a 80 horas: El contratista decide comprar 
las lámparas sólo si una muestra aleatoria de 64 de estas da como resultado una vida 
promedio de por lo menos 1 000 horas. ¿Cuál es la probabilidad de que el contratista 
adquiera las lámparas? 

7.17. Un inspector federal de pesos y medidas visita una planta de empacado para verificar 
"que el peso neto de las cajas sea el indicado en éstas. El gerente de la planta asegura al 

inspector que el peso promedio de cada caja es de 750 gr con uña desviación estándar 
de 5 gr. El inspector selecciona, al azar, 100 cajas y encuentra que el peso promedio 
es de 748 gr. Bajo estas condiciones, ¿qué tan probable es tener un peso de 748 o me- 
nos? ¿Qué actitud debe tomar el inspector? 

7.18. En la fabricación de cojinetes para motores, se sabe que el diámetro promedio es de 5 
cm con una desviación estándar igual a 0.005 cm. El proceso es vigilado en forma perió- 
dica mediante la selección aleatoria de 64 cojinetes, midiendo sus correspondientes 
diámetros. El proceso no se detiene mientras la probabilidad de que la media muestral se 
encuentre entre dos limites especificados sea de 0.95. Determinar el valor de estos límites. 

7.19. En la producción de cierto material para soldar se sabe que la desviación estándar de la 
tensión de ruptura de este material es de 25 libras. ¿Cuál debe ser la tensión de ruptura 
promedio del proceso si, con base en una muestra aleatoria de 50 especímenes, la proba- 
bilidad de que la media muestral tenga un valor mayor de 250 libras es de 0.95? 

7.20. Genere 50 muestras, cada una de tamaño 25 a partir de una distribución normal con me- 
dia 60 y desviación estándar 10. Calcule la varianza de cada muestra mediante el empleo 
de (7.14). 

a) Obtener la media y la varianza de 5" mediante el empleo de los 50 valores calculados. 
¿Cómo son estos valores al compararlos con los proporcionados por las expresiones 
(7.17) y (7.18)? 

b) Agrupar los 50 valores calculados de S 2 y granear las frecuencias relativas. Coméntese 
sobre los resultados. 

7.21. Repetir el ejercicio 7.20 pero generando los valores aleatorios a partir de una distribu- 
ción exponencial con parámetro de escala = 30. Haga un comentario sobre sus resul- 
tados. 

7.22. Para un gerente de planta es muy importante controlar la variación en el espesor de un 
material plástico. Se sabe que la distribución del espesor del material es normal con una 
desviación estándar de 0.01 cm. Una muestra aleatoria de 25 piezas de este material da 
como resultado una desviación estándar muestral de 0.015 cm. Si la varianza de la 
población es (0.0 1 )- cm\ ¿cuál es la probabilidad de que la varianza muestral sea igual 
o mayor que (0.01 5) : enr ? Por lo tanto, ¿qué puede usted concluir con respecto a la va- 
riación de este proceso? 

7.23. Si se obtiene una muestra aleatoria de ai = 16 de una distribución normal con media y 
varianza desconocidas, obtener P(S 2 /a l s 2.041). 

7.24. Si se obtiene una muestra aleatoria de tamaño n = 21 de una distribución normal con 
media y varianza desconocidas, obtener P(S 2 /a' =£ 1.421). 

7.25. Un fabricante de cigarrillos asegura que el contenido promedio de nicotina, en una de 
sus marcas, es de 0.6 mg por cigarrillo. Una organización independiente mide el conteni- 
do de nicotina de 16 cigarrillos de esta marca y encuentra que el promedio y la desvia- 



I ción estándar muestral es de 0.75 y 0. 175 mg, respectivamente, de nicotina. Sise supone 

que la cantidad de nicotina en estos cigarrillos es una variable aleatoria normal, ¿qué 
tan probable es el resultado muestral dado ej dato proporcionado por el fabricante? > 

7.26. Durante los 12 meses pasados el volumen diario de ventas de un restaurante fue de 
$2 000. El gerente piensa que los próximos 25 días serán típicos con respecto al volumen 
de ventas normal. Al Analizar los 25 días, el volumen de ventas y su desviación estándar 
promedio fueron de $1 800 y $200, respectivamente. Supóngase que el volumen de ven- 
tas diario es una variables aleatoria normal. Si usted fuese el gerente, ¿tendría alguna ra- 
zón para creer, con base en este resultado, que hubo una disminución en el volumen de 
ventas promedio diario? 

7.27. El gerente de una refinería piensa modificar el proceso para producir gasolina a partir 
de petróleo crudo. El gerente hará la modificación sólo si la gasolina promedio que se 
obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su 
valor con respecto al proceso en uso. Con base en un experimento de laboratorio y me- 
diante el empleo de dos muestras aleatorias de ♦am-fio 12, una para cada proceso, la 
cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación están- 
dar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación estándar de 2.7. 
El gerente piensa que los resultados proporcionados por los dos procesos son variables 
aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en 
esta evidencia, ¿debe adoptarse el nuevo proceso? 

7.28. Una organización independiente está interesada en probar la distancia de frenado a una 
velocidad de 50 mph para dos marcas distintas de automóviles. Para la primera marca 
se seleccionaron nueve automóviles y se probaron en un medio controlado. La media 
muestral y la desviación estándar fueron de 145 pies y 8 pies, respectivamente. Para la se- 
gunda marca se seleccionaron 12 automóviles y la distancia promedio resultó ser de 132 pies 
y una desviación estándar de 10 pies. Con base en esta evidencia, ¿existe alguna razón para 
creer que la distancia de frenado para ambas marcas, es la misma? Supóngase que las 
distancias de frenado son variables aleatorias independientes normalmente distribuidas 
con varianzas iguales. 

7.29. La variación en el número de unidades diarias de cierto producto, el cual manejan 
dos operadores A y B, debe ser la misma. Con base en muestras de tamaño n A = 16 
días y «s = 21 días, el valor calculado de las desviaciones estándar muéstrales es de 
s A = 8.2 unidades y s B = 5.8 unidades. Si el número de éstas, manejadas por los dos 
operadores, por día, son dos variables aleatorias independientes que se encuentran 
aproximadas, en forma adecuada, por distribuciones normales, ¿existe alguna ra- 
zón para creer que las varianzas son iguales? 

7.30. Con base en la información proporcionada en el ejercicio 7.27, ¿existe alguna razón 
para creer que las varianzas de los dos procesos son iguales? 



APÉNDICE 

Demostración del teorema central del límite 

El propósito de este apéndice no es el presentar una demostración general y elegante 
desde el punto de vista matemático, sino más bien proporcionar un esbozo de la de- 



248 Muestras aleatorias y distribuciones de muestreo 

mostración del teorema central del límite. Se quiere demostrar que la función gene- 
radora de momentos de (X - fi)/ (<r/\/n) tiende a la de una distribución normal 
estándar conforme n tiende al infinitó. Sean " 



Z, = (X¡ - fi)/o- i = 1,2, 



n, 



«.--i Itr/V" 



entonces 



Y = 



M 



v/y/ñ' 



Dado que 



« o-/ V« i- i 



1 " 1 



1 



« o-/V« 



F= ( n X ~ n V-) ~ 



V- 



r/V~n' 



1 

V«í-i 

Como resultado se tiene que la función generadora de momentos de Y es igual a la 
función generadora de momentos de (l/V") £"=, Z,. Del teorema 7.1, 

»M0 = [m z ,(//V«)]" 

= {£[exp(rZ,/Vñ)]r, 

dado que las Z, son variables aleatorias independientes. 
Al expander (tZJ\/n) en una serie de Taylor: 

t t 2 i 3 

exp(/Z f /V«) = 1 + -pZi + =-Z? + r^Z? + - . 
\Jn 2/i 3!/7 

Si se toman los valores esperados y se recuerda que E(Z¡) = y Var(Z¡) = 1 , / = 
1, 2, ..., n, se tiene 

£[exp(/Z,/V«)] =\+i- + TT-Í75£(2-) + 



2n 3!« 3/2 ' 



De acuerdo con lo anterior 



+ £ + ^^ + - 



2n 3!« J 



1 + - 

AI 



1 + 



r r 
.2 3!V« 



Apéndice 249 



en donde 



Ahora 



t 2 í 3 
u = - + p£(Z 3 ) + 



2 V.yfn 



pero por definición 



lím/n K (/) = líml 1 + -I , 



lím( 1 + -I = e". 



Lo anterior da como resultado una situación idéntica a la que se tiene en la de- 
mostración del teorema 5.1. Esto es, conforme «->», todos los términos en u, ex- 
cepto el primero, tienden hacia cero debido a que todos tienen potencias positivas de 
n en sus denominadores. Por lo tanto, puede deducirse que 

lím m Y (t) = exp(/ 2 /2), 

n— *^ 

o la distribución límite de Y = (X - (i)/(o-/\/n) es la normal estándar para valo- 
res grandes de n. 



APÉNDICE 

Deducción de la función de densidad de probabilidad t de Student 

Sea Tuna variable aleatoria definida por (7.19). Considere la densidad de probabili- 
dad de T cuando X se mantiene fija en un valor x. Dado que 

Mz) = -L=exp(-z 2 /2), 
V2tt 

la densidad de probabilidad condicional de 

t = z/( X / v y /2 

se obtiene al considerar la relación inversa 

Z =(x/v) U2 T 
y al sustituir en f/Xz), en donde el jacobiano de la transformación es 

dt 



250 Muestras aleatorias y distribuciones de muestreo 
De esta forma 

fit \ x) = (*/*)' /2 exp(-xf 2 /2y). -oc < t < oo, * >0. 

De (6.19) se sabe que la densidad cpnjunta de T y X es 

/(/,jr)=/(/|jr)^(x). 
Dado que X ~ X 2 ,, 



A(x) = 2 '' 2 r( y /2) *"~ 2>/2exp( ~ x/2) ' x > °- 



De esta forma 



/(/. x) = 



v""" /2 exp 



2 ~~ 2v 



\J1ttv 2" /2 I>/2) 

= c l jt , " _ " /I exp(-c 2 jc/2), 

en donde c, = 1/[V2™ 2" /2 I>/2)] y c 2 = [1 + (r/v)]. Integrando /(f, jt) con 
respecto a x, se obtiene la función de densidad de probabilidad de la distribución t de 
Student. De acuerdo con lo anterior 

frU) = Cl j o x {,, - i)/2 eM-c 2 x/2)dx 

= c, (2y/c 2 ) ( """ /2 exp(-y)(2/c 2 )í/y, en donde y = c 2 x/2ydx = (2/c 2 )dy 
Jo 

= c x {2/c 2 t + "' 2 \ y- ,,/2 exp(-y)rfy 

Jo 

= c,(2/c 2 ) ( " +,,/2 r[(^ + l)/2] 



1 



■>(>■+ I )/2 



y/2irv2' /2 r(v/2) [i + o 2 M] 



T^üfU» + D/2] 



r[(^_+ i)/2j 

V^ I>/2) 



1 + (í 2 /") 



(>.+ l)/2 



OC < f < CC. 



CAPÍTULO OCHO 



■ • . ,.■: -■■■■■■>■<.: ■...-.'.)- .. .!•: .;; . -.¡- . , fj-..-.¡ i, 1 . B i.' 

Estimación puntual 
y por intervalo 



8.1 Introducción 

En el capítulo anterior se mencionó, en forma breve, que las estadísticas se emplean 
para estimar los valores de parámetros desconocidos o funciones de éstos. En este 
capítulo se examinará con detalle el concepto de estimación de parámetros mediante 
la especificación de las propiedades deseables de los estimadores (estadísticas) y el 
desarrollo de técnicas apropiadas para implementar el proceso de estimación. Se^iti- 
lizará el punto de vista de la teoría del muestreo, que considera a un parámetro como 
una cantidad fija pero desconocida. 

La estimación de un parámetro involucra el uso de los datos muéstrales en con- 
junción con alguna estadística. Existen dos formas de llevar a cabo lo anterior: la es- 
timación puntual y la estimación por intervalo. En la primera se busca un estimador 
que, con base en los datos muéstrales, dé origen a una estimación univaluada del va- 
lor del parámetro y que recibe el nombre de estimado puntual. Para la segunda, se 
determina un intervalo en el que, en forma probable, se encuentra el valor del pará- 
metro. Este intervalo recibe el nombre de intervalo de confianza estimado. 

Al igual que en los capítulos anteriores, la función de densidad de probabilidad 
en la distribución de la población de interés se denotará por j\x\ 6), donde la función 
depende de un parámetro arbitrario 0, el cual puede tomar cualquier valor que se 
encuentre en cierto dominio.* De esta forma, el principal objetivo de este capítulo es 
presentar los criterios convenientes para la determinación de los estimadores de 0. 



8.2 Propiedades deseables de los estimadores puntuales 

Con el propósito de mostrar la necesidad de estimar parámetros, considérese la si- 
guiente situación. Cuando se obtiene una muestra aleatoria de cierta característica X 

* El dominio de un parámetro recibe el nombre de espacio parametral. 



252 Estimación puntual y por intervalo 



de la distribución de la población, y a pesar de que pueda identificarse la forma fun- 
cional de la densidad de ésta, es poco probable que la característica pueda especifi- 
carse de manera completa mediante los valores de todos los parámetros. En esencia, 
se conoce la familia de distribuciones a partir de la cual se obtiene la muestra, pero 
no puede identificarse el miembro de interés de ésta, ya que no se conoce el valor del 
parámetro. Este ultimo tiene que estimarse con base en los datos de la muestra. Por 
ejemplo, supóngase que la distribución del tiempo de servicio en una tienda es expo- 
nencial con parámetro desconocido 6. Se observan 25 lapsos aleatorios y la media 
muestral calculada es igual a 3.5 minutos. Dado que para la distribuciñ exponencial 
E(X) = 9, un estimado puntual de 6 es 3.5. Por lo tanto, de manera aparente, el 
muestreo se llevó a cabo sobre una distribución exponencial cuya media estimada es 
de 3.5 minutos. 

Es posible definir muchas estadísticas para estimar un parámetro desconocido 0. 
Por ejemplo, para el caso anterior pudo elegirse la mediana muestral para estimar el 
valoi de la media. Entonces, ¿cómo seleccionar un buen estimador de 0? ¿Cuáles 
son los criterios para juzgar cuándo un estimador de 6 es "bueno" o "malo"? De 
manera intuitiva, ¿qué es un buen estimador? Si se piensa en términos de "estima- 
dores humanos" como los que se encuentran en las compañías grandes de construc- 
ción, entonces quizá un buen estimador sea aquella persona cuyas estimaciones 
siempre se encuentran muy cercanas a la realidad. Como ejemplo adicional, suponga 
que un grupo de personas se encuentra al tanto del volumen de ventas y adquisi- 
ciones de tres comerciantes (A, B y C) quienes compiten en el mismo mercado. 
Como el inventario es siempre un aspecto importante en los negocios, cada uno de 
estos comerciantes predice la demanda mensual de sus productos y, con base en ésta, 
realizan las adquisiciones necesarias. Supóngase que se determina la diferencia entre 
las demandas real y la esperada para varios meses y con base en éstas se obtienen las 
distribuciones de frecuencia que se muestran en la figura 8.1. 



Mr* 




FIGURA 8.1 Frecuencias alisadas para la diferencia entre las demandas real y predecida 



8.2 Propiedades deseables de los estimadores puntuales 253 

La intuición sugiere que el comerciante C es el que hace mejor su trabajo no sólo 
porque la distribución de la diferencia entre las demandas real y esperada se con- 
centra alrededor del valor perfecto de cero sino también porque la variabilidad de lá 
diferencia es, en forma relativa, pequeña. Para el comerciante A¿ aun a pesar de que 
la distribución también se encuentra centrada alrededor del origen, existe una mayor 
variabilidad en las diferencias. La distribución para el comerciante B se concentra 
alrededor de un valor negativo, lo cual sugiere que B sobreestima la mayor parte del 
tiempo la demanda mensual. 

Si se acepta la premisa de que el objetivo de la estimación de parámetros no es 
igual al de los estimadores o predictores humanos, entonces, de los ejemplos ante- 
riores, surgen dos propiedades deseables: el estimador de un parámetro 9 debe tener 
una distribución de muestreo concentrada alrededor de 9 y la varianza del estima- 
dor debe ser la menor posible. 

Para ampliar las propiedades anteriores, considérese lo siguiente. Sea A", , X 2 X„ 

una muestra aleatoria de tamaño n proveniente de una distribución con función 
de densidad f{x; 9), y sea T = u(X u X 2 , . , X„) cualquier estadística. El proble- 
ma es encontrar una función u que sea la que proporcione la "mejor" estimación de 
9. Al buscar el mejor estimador de 9 se hará uso de una cantidad muy importante 
que recibe el nombre de error cuadrático medio de un estimador. 

Definición 8.1 Sea T cualquier estimador de un parámetro desconocido 9. Se defi- 
ne el error cuadrático medio de T como el valor esperado del cuadrado de la dife- 
rencia entre Ty 9. 

Para cualquier estadística T, se denotará el error cuadrático medio por ECM(7); 
de esta forma 

ECM(D = E(T - 9) 2 . (8.1) 

Puede verse la razón del por qué el error cuadrático medio es una cantidad im- 
portante para enjuiciar a los posibles estimadores de 9 mediante el desarrollo de 
(8.1); este es, 

ECM(7) = E(T 2 - 29T + 9 2 ) 

= E(T 2 ) - 29E(T) + 9 2 

= Var(T) + [E{T)f - le :(7") -i- 9 2 

= VaiiT) + [0 - E(T)} 2 . (8.2) 

El error cuadrático medio de cualquier estimador es la suma de dos cantidades no 
negativas: una es la varianza del estimador y la otra es el cuadrado del sesgo del esti- 
mador. El lector encontrará que estas dos cantidades se encuentran relacionadas en 
forma directa con las propiedades deseables de un estimador. De manera específica, la 
varianza de un estimador debe ser lo más pequeña posible mientras que la distribu- 
ción de muestreo debe concentrarse alrededor del valor del parámetro. Por lo tanto, 
el problema visto de manera superficial parece bastante sencillo; esto es, seleccionar, 
como el mejor estimador de 9, la estadística que tenga el error cuadrático medio 



254 Estimación puntual y por intervalo 



más pequeño posible de entre todos los estimadores factibles de 6. Sin embargo, en 
realidad el problema es mucho más complicado. Aun si fuese práctico determinar 
los errores cuadráticos medios de un número grande de estimadores, para la mayor 
parte de las densidades f(x; d) no existe ningún estimador que minimice el error 
cuadrático medio para todos los posibles valores de 6. Es decir, un estimador puede 
tener un error cuadrático medio mínimo para algunos valores de 0> mientras que 
otro estimador tendrá la misma propiedad, pero para otros valores de 0. 



Ejemplo 8.1 Sea A",, X 2 , ..., A", una muestra aleatoria de alguna distribución tal 
que E(Xj) = p, y Var(X¡) = o- 1 , i = 1,2, ..., n. Considere las estadísticas 



T 2 - X X,/(n + O 



como posibles estimadores de /*. Obtener los errores cuadráticos medios de T l y T 2 y 
demostrar que ECM(7" 2 ) < ECMÍJ,) para algunos valores de n mientras que la pro- 
posición inversa es cierta para otros valores de ¡i. 

El sesgo de 7, es cero, dado que £(T,) = E{X) = /u; de esta forma se tiene 

ECM(7,) = VariT,) = a 2 /n. 



Para T 2 , 



E(T 2 ) = (n+ \r l E[ 2 X 



De manera similar, 



= np/(n + 1). 
Var(T 2 ) = Var 



Un + 1) '¿^, 



(/i + 1)" 2 X VaríXj 



De esta forma se tiene 



= na 2 /(n + I) 2 . 



ECM(7\) 



(« + ir 

na 2 + fi 2 
(n + l) 2 



í + 



M 



«JU 



(« + I) 



I* 



8.2 Propiedades deseables de los estimadores puntuales 255 

Si « =1 10 y (r 2 - 100; entonces : n í 

ECM(7,) = 10, í. .-; 

¿ > ecm(7 2 ) = (íooo + M 2 )/m. ■■-■■•íj -■-■■•■■••■• 

Al igualar las dos expresiones anteriores y resolver para ju, se tiene que para fi < 
V^IO, ECM(7 2 ) < ECM(7-,); pero si ¿i >\\/210, entonces ECM( 7,) < ECM(T 2 ). 

Es por esta razón que se deben examinar criterios adicionales para la selección de 
los estimadores de 6, aun a pesar de que el error cuadrático medio sea el concepto 
|j|í más importante. De manera especifica se estudiarán los estimadores insesgados, 

consistentes, insesgado de varianza mínima y eficientes. Entonces, con base en lo an- 
terior, se presentará un concepto importante en la estimación puntual que se conoce 
como estadísticas suficientes. A lo largo de toda la discusión se supodrá la existencia 
de un solo parámetro desconocido. Sin embargo, debe notarse que bajo condiciones 
más generales estos conceptos pueden extenderse para incluir un número mayor de 
parámetros desconocidos. 

8.2.1 Estimadores insesgados 

En el error cuadrático medio de un estimador T, el término [d - E(T)] recibe el 
nombre de sesgo del estimador. El sesgo de T puede ser positivo, negativo o cero. 
Puesto que el cuadrado del sesgo es un componente del error cuadrático medio, es ra- 
zonable insistir que éste sea, en valor absoluto, lo más pequeño posible. En otras pa- 
labras, es deseable que un estimador tenga una media igual a la del parámetro que se 
está estimando. Lo anterior da origen a la siguiente definición. 

Definición 8.2 Se dice que la estadística T = u(X, , X 2 , . . . , X„ ) es un estimador in- 
sesgado del parámetro 0, si E(T) = 6 para todos los posibles valores de 0. De esta 
forma, para cualquier estimador insesgado de 8, la distribución de muestreo de Tse 
encuentra centrada alrededor de 6 y ECM(7") = Var(T). 

En la sección 7.4 se demostró que, sin importar la distribución de la población de 
interés, E(X) = /j.. Por lo tanto, la media muestral es un estimador insesgado de la 

media de la población /j. para todos los valores de fx. De hecho, si X, , X 2 X„ es 

una muestra aleatoria de la distribución de X con media ¿¿.entonces cualquier X t de la 

muestra un estimador insesgado de ft, dado que E(X¡) = ¡x para toda / = 1,2 n. 

Además, si una estadística Tes cualquier combinación lineal de las variables aleato- 
rias de la muestra de manera tal que 

T = «,*, + a 2 X 2 + ■■■ + a „X„ 
en donde 2" = , a¡ = 1, entonces Tes un estimador insesgado de fi dado que 

E(T) = EUtyX¡ + a 2 X 2 + ••• + a„X„) 

* = ciffi + ct^jj. + ■■■ + (l„fl 

= M- 



256 Estimación puntual y por intervalo 

En la sección 7.5 se demostró que si la varianza muestra] S 2 está dada por (7.14), 
entonces, cuando se muestrea una distribución normal, E(S 2 ) = o- 2 . A continua- 
ción se demostrará que si S 2 está definida por (7.14), entonces éste es un estimador 
insesgado de a 1 sin importar cuál sea la distribución de la población de-interés. Sea 
X t , X lT ..., X„ una muestra aleatoria de alguna distribución con una función de 
densidad no especificada. De esta manera, E(X¡) = ¡x y VariX¡) = o- 2 para toda -|| 
i = 1,2, ...,/í. 



Entonces 

E(S 2 ) = E I Y (X, -.- X) 2 /(n - 1) 



= («- iy l ElZi&i - ti - & - rin 

= (n - I)" 1 E I ¿ [(*,- - fJL) 2 - n(X - m) 2 ] J* 

= (n - I)"' ¿ £(J, - z^) 2 - n£(3f - m) 2 ; 

L' = i 

pero por definición E(X¡ - /x) 2 = Var(J,) = or 2 y £(^ - ¡jl) 2 - Var(^) = or 2 /«. 
Por lo tanto 

E(S 2 ) = (n - 1)"' [na 2 - (n<r 2 )/n] 

<r\n - 1) 



= a 2 . 



En otras palabras, S 2 es un estimador insesgado de o- 2 sólo cuando el divisor es 
igual a n - 1 . Esta es la razón del por qué al determinar la varianza muestral se divide 
por n - 1 en lugar de dividir por n. El lector debe saber que este resultado no hará de 
S un estimador insesgado de cr (véase la sección 1 1.2.2).* 

8.2.2 Estimadores consistentes 

Es razonable esperar que un buen estimador de un parámetro 8 sea cada vez mejor 
conforme crece el tamaño de la muestra. Esto es, conforme la información en una 
muestra aleatoria se vuelve más completa, la distribución de muestreo de un buen es- 
timador se encuentra cada vez más concentrada alrededor del parámetro 0. Se 
tendrá un mejor estimador de d si se basa en 30 observaciones que si lo hace con 
sólo cinco. Esta idea origina lo que se conoce como un estimador consistente. 

Definición 8.3 Sea Tel estimador de un parámetro 6, y sea T,, T 2 T„ una se- 
cuencia de estimadores que representan a Tcon base en muestras de tamaño 1, 2 ... 

* Véase el material que lleva a la expresión (7.15) 



8.2 Propiedades deseables de los estimadores puntuales 257 

n, respectivamente. Se dice que T es un estimador consistente (sencillo)* para si 

lím P(\T„ - d\ « e) = 1 - 

- ■, -.. n-» x 

para todos los valores de y e > 0. 

El requisito de que lím n _« P(\T„ - 6\ =£ e) = J para toda 6 constituye lo que se 
denomina convergencia en probabilidad. Es decir , N si un estimador es consistente, 
converge en probabilidad al valor del parámetro que está intentando estimar confor- 
me el tamaño de la muestra crece. Esto implica que la varianza de un estimador consis- 
tente T„ disminuye conforme n crece, y la media de T„ tiende hacia donde n crece. 
De esta forma, las condiciones que T n debe cumplir para ser un estimador insesgado 
de y para que Var(T„)—>0 conforme n— »«> son suñcientes (pero no necesarias) 
para que exista consistencia. Por ejemplo, la media muestral A' y la varianza 
muestral S 2 ^on estimadores consistentes de m y o- 2 , respectivamente. Para de- 
mostrar que X es un estin.udc. consistente de fi, primero se enunciará un impor 
tante *eorema conocido como desigualdad de Tchebysheff . 

Teorema 8.1 Sea X una variable aleatoria con una función (densidad) de probabili- 
dad /fo) de manera tal que tanto E(X) = /xcomoVariX) = o- 2 tienen un valor fi- 
nito. Entonces 



P(\X - ai| « k*)> 1 - - 2 



í_ 

k 2 



P(\X - fi\>ka)^ l2 



k 2 



para cualquier constante k s* 1. (Para la demostración de este teorema véase [3].) 

La desigualdad de Tchebysheff es muy importante, ya que permite determinar 
los limites de las probabilidades de variables aleatorias discretas o continuas sin te- 
ner que especificar sus funciones (densidades) de probabilidad. Este teorema de 
Tchebysheff asegura que la probabilidad de que una variable aleatoria se aleje no 
más de k desviaciones estándar de la media, es menor o igual a X/k 2 para algún valor 
de k : 5= 1 . Por ejemplo 

P(\X - ¡x\ =s 2o-) > 1 - \ 

4 

y 

P(\X - p.\ *£ 3o-) 5* 1 - I 
para cualquier variable aleatoria X con media fi y varianza a 2 finitas. 

* También puede definirse un estimador de error cuadrático consistente en forma tal que 
1 lím £"(7", - ef = 0, para toda 6, 

pero la idea de consistencia sencilla es una propiedad más básica. 



258 Estimación puntual y por intervalo 

Para demostrar que la media muestra! X„ , como función de una muestra alea- 
toria de tamaño n, es un estimador consistente de /u., se utilizará el resultado propor- 
cionado por el teorema 8.1. '--■'- - < 

Teorema 8.2 Sean X t , X 2 , ...,X„ n variables aleatorias IID, tales que E(X¡)_ = m 
y Var(X¡) = a* tienen un valor finito para i = 1,2, ..., n. Entonces X„ = 
27= i XJn es un estimador consistente de /li. 

Demostración: Se quiere demostrar que 

]ímP(\X n - fji\^e) = 1. 

Dado que X„ es una variable aleatoria tal que E{X„) = fi y Var(X„) = o- 2 /n,se 
deduce del teorema de Tchebysheff que 

P(\X n - n\>ko-/\/n)*Z]/k 2 . 

Sea k una constante positiva igual a e's/n/a, en donde e es un número real positivo. 
Entonces 

P(\X n - >i\>e)^^ 2 . 

Dado que o- 2 tiene un valor finito, tomando el límite de esta expresión conforme n 
tiende al infinito se tiene 

lím P(\X n - ju.| > e) = 0. 

n — ►^c 

Por lo tanto, se concluye que 

\imP(\X n - /*| « e) = 1, 

ff— »3C 

y X„ es un estimador consistente de /u.. 

El teorema 8.2 también se conoce como la ley de los grandes números. Ésta pro- 
porciona el fundamento teórico para estimar la media de la distribución de la pobla- 
ción con base en el promedio de un número finito de observaciones de manera tal 
que la confiabilidad de este promedio es mejor que la de cualquiera de las observa- 
ciones. Lo anterior permite determinar el tamaño necesario de la muestra para ase- 
gurar con determinada probabilidad que la media muestral no se alejará más allá de 
una cantidad específica de la media de la población. 

Ejemplo 8.2 Considere el proceso de selección de una muestra aleatoria de alguna 
distribución que tiene una varianza conocida de o -2 = 10 pero con una media /u. 
desconocida. ¿Cuál debe ser el tamaño de la muestra para que la media X„ se en- 
cuentre dentro de un intervalo igual a dos unidades, de la media poblacional con una 
probabilidad de, por lo menos, 0.9? 

Primero se desarrollará una expresión general para n. Del teorema 8.1, se sabe 
que 



8.2 Propiedades deseables de los estimadores puntuales 259 

P(\X„ -^WV¡)? 1 -ji- :'^V 5íjV¿, ! (8.3) 

Elíjase un número positivo a de manera tal que «í = l/k^-o kJ=t^y/c¿^éa don 1 
de necesariamente < a < 1. Entonces* ! ' ? 'r :;{1 " r 

P(\X„ - ii\ * a/y/naj'i* I - a. '■■•"....'." " . "£ '.'. ".'(¿Áj 

Sea £ > la magnitud del máximo error permisible entre X„ y ¡x con base en una 
muestra de tamaño n. Entonces 



l\/na. (8.5) 



Resolviendo para n, se tiene 



o; 



n = —,. (8.6) 



Es claro que a = 0. 1 y £ = 2 para determinar los valores de n. Sustituyendo 
en (8.6), se tiene 

n = 10/(0.I)(4) 

= 25; 

de esta manera, si se selecciona una muestra que contenga por lo menos 25 observa- 
ciones de la distribución, el valor de la media se encontrará dentro de un intervalo 
con longitud de dos unidades con respecto a la media poblacional que tenga una pro- 
babilidad no menor que 0.9. El valor de probabilidad 0.9 asociado con esta afirma- 
ción en una medida de la confiabilidad con que se puede formular una inferencia 
respecto a \x. y con base en X. 

8.2.3 Estimadores insesgados de varianza mínima 

Para un parámetro que posee un error cuadrático medio mínimo es difícil determi- 
nar un estimador para todos los posibles valores del parámetro. Sin embargo, es po- 
sible analizar cierta clase de estimadores y dentro de esta clase intentar determinar 
uno que tenga un error cuadrático medio mínimo. Por ejemplo, considérese la clase 
de estimadores insesgados para el parámetro 0. Si una estadística T se encuentra 
dentro de esta clase, entonces E(T) = y ECM (7) = Var(T). Puesto que es desea- 
ble que la varianza de un estimador sea lo más pequeña posible, debe buscarse uno 
en la clase de estimadores insesgados, si es que éste existe, que tenga una varianza 
mínima para todos los valores posibles de 0. Este estimador recibe el nombre de esti- 
mador insesgado de varianza mínima uniforme (VMU) de 0. La definición formal 
de un estimador VMU es la siguiente. 

Definición 8.4 Sea X, , X 2 X„ una muestra aleatoria de una distribución cuya 

función (densidad) de probabilidad es /(.r; 0). Sea la estadística T = u(X t . A% 

X„) un estimador de tal que E{J) = y Var(T) es menor que la varianza de 



260 Estimación puntual y por intervalo 

cualquier otro estimador insesgado de0 para todos los posibles valores de d. Se dice 
entonces que Tes un estimador insesgado de varianza mínima de 6. 

La varianza de un estimador insesgado es la cantidad más importante para decidir 
qué tan bueno es el estimador para estimar un parámetro 0. Por ejemplo, sean T l y 
T 2 cualesquiera dos estimadores insesgados de 6. Se dice que T, es un estimador más 
eficiente de 6 quer 2 si Var(T,) =s Var(T 2 ), cumpliéndose la desigualdad en el sen- 
tido estricto para algún valor de 0. Es muy común utilizar el cociente Var (7", )/ Var 
(T 2 ) para determinar la eficiencia relativa de 7 2 con respecto a T,. Si los estimadores 
son sesgados, se emplean sus errores cuadráticos medios para determinar las eficien- 
cias relativas. 

¿Cómo obtener un estimador VMU, si es que éste existe? En muchos casos resul- 
ta prohibitivo determinar las varianzas de todos los estimadores insesgados de 6 y 
entonces se selecciona el estimador que tenga la varianza más pequeña. La búsqueda 
de un estimador VMU se facilita bastante con la ayuda de un resultado que recibe el 
nombre de cota inferior de Cramér-Rao, el cual se presenta en el siguiente teorema. 
Para una demostración de éste y otros detalles que incluyen algunas condiciones de 
regularidad, se invita al lector a que consulte [2]. 

Teorema. 8.3 Sea X, , X 2 X„ una muestra aleatoria de una distribución con 

una función (densidad) de probabilidad f(x; 0).Si T es un estimador insesgado de 
0, entonces la varianza de rdebe satisfacer la siguiente desigualdad 

VaiíT) ^ — — í — . (8.7) 



nE 



f dlnfjX; 8) Y 



El teorema 8.3 establece un limite inferior para la varianza de un estimador de 6. 
Sin embargo, lo anterior no necesariamente implica que la varianza de un estimador 
VMU de 6 tenga que ser igual al límite inferior de Cramér-Rao. En otras palabras, 
es posible encontrar un estimador insesgado de que tenga la varianza más pequeña 
posible de entre todos los estimadores insesgados de 6, pero cuyas varianzas son más 
grandes que el límite inferior de Cramér-Rao. Un estimador de esta clase sigue sien- 
do un estimador VMU de 0. Para un estimador insesgado cuya varianza se apega a 
la cota inferior de Cramér-Rao, se tiene la siguiente definición. 

Definición 8.5 Si Tes cualquier estimador insesgado del parámetro 6 tal que 

1 



Var(T) 



nE 



/ W(*;0) X2 



entonces se dice que Tes un estimador eficiente de 6. 

De esta forma, el estimador eficiente de 6 es el estimador VMU cuya varianza es 
igual al límite inferior de Cramér-Rao. El estimador eficiente de 0, si es que se puede 



8.2 Propiedades deseables de los estimadores puntuales 261 

encontrar, es el mejor estimador (insesgado) de & en el contexto de la inferencia es-: 
tadistica clasica. 

Ejemplo 8.3 Sea X { , X 2 , ..., X„ una muestra aleatoria de una distribución de 
Poisson cuya función de probabilidas es p(x; X) = e~ k k x /x\. Obtener el estimador 
eficiente de X. x 

Dado que p{x; X) = k" exp( - \)/jc!, 

\np(x;k) = xln(X) - X - ln(jr!) 



I 



Entonces 



d ln p(x; k) _ x 
-dk ~k 



áln p(X\ k) 
dk 



(x - k)/k. 



E[(X - k)/k} 2 
= ¿ E(X - k) 2 

A. 
Var(X) 



pero si A' es una variable aleatoria de Poisson, VartX) = k. Lo anterior da como re- 
sultado 



¿ln p{X\ k) 
dk 



y, por la definición 8.5, la varianza del estimador eficiente de X es 

Var{T) = -i- = k/n = <r 2 /n, 
n/k 

en donde o- 2 = X es la varianza de la población. Por lo tanto, el estimador eficiente 
del parámetro X de Poisson es la media muestral X. 

Se concluirá esta sección sobre las propiedades deseables de los estimadores 
regresando al importante concepto de estadísticas suficientes. Este concepto es im- 
portante puesto que si existe un estimador eficiente, se encontrará que también es 
una estadística suficiente. 



8.2.4 Estadísticas suficientes 

De manera intuitiva, una estadística suficiente para un parámetro 6 es aquélla que 
utiliza toda la información contenida en la muestra aleatoria con respecto a . Por 



262 Estimación puntual y por intervalo 

ejemplo, supóngase que X u X 2 X x es una muestra aleatoria de 50 observa- 
ciones de una distribución gama con una función de densidad 

' />■ :>■'■ /(jc;2,0) = ^jcexp(-jc/0) x>0, 

en donde el parámetro de escala 0, > 0, es desconocido. Con una estadística sufi- 
ciente para 0, lo que se tiene es una manera de resumir todas las mediciones de los 
datos de la muestra en un valor en el que toda la información de la muestra con res- 
pecto a se encuentre contenida en este valor. Para este ejemplo, el estimador 

T= (X, + X¡ + ••• + X, 9 )/25 

¿contiene toda la información pertinente con respecto a 0? A pesar de que el estima- 
dor T proporciona un solo valor, no es posible que éste contenga toda la informa- 
ción muestral con respecto a 0, dado que se ha excluido la mitad de las observa- 
ciones. ¿Qué puede decirse acerca de la media muestral? Con toda seguridad ésta 
incluye todas las observaciones de la muestra aleatoria. ¿Significa esto que toda la 
información muestral con respecto a se extrae considerando a XI Se dice que una 
estadística T = u(X t , X 2 , ..., X„) es suficiente para un parámetro si la distribu- 
ción conjunta de X u X 2 , ..., X„, dado T, se encuentra libre de 0; es decir, si se 
afirma T, entonces X¡ , X 2 , ..., X„ no tiene nada más qué decir con respecto a 0. 
, La utilidad de una estadística suficiente recae en el hecho de qué si un estimador 
insesgado de un parámetro es una función de una estadística suficiente, entonces 
tendrá la varianza más pequeña de entre todos los estimadores insesgados de d que 
no se encuentren basados en una estadística suficiente. De hecho, si existe el estima- 
dor eficiente de 9, se encontrará que éste es una estadística suficiente. Un criterio 
para determinar una estadística suficiente está dado por el siguiente teorema, el cual 
se conoce como teorema de factorización de Neyman. 

Teorema 8.4 Sea X v X 2 , ...,X n una muestra aleatoria de una distribución con una 
función de densidad de probabilidad f(x; 8). Se dice que la estadística T = u{X u 

X 2 X^ es una estadística suficiente para $ si y sólo si la función de verosimilitud 

puede factorizarse de la siguiente forma: 

Uvi ,x 2 , v„ ; 6) = hU\d) #(.v, . x 2 .v„ ) 

para cualquier valor / = u(x t , .v 2 , ..., x„) de Tyen donde #U,, x 2 , ..., x„) no con- 
tiene al parámetro 6. 

Ejemplo 8.4 Sea X, . X 2 , . . . , X„ una muestra aleatoria de una distribución gama 
cuya función de densidad de probabilidad es 

/ (v: B) = FT^ *'" ' exp( -.v/0) x > 0, 
l(a)0 

y en donde el valor del parámetro de forma a es conocido. Obtener una estadística 
suficiente para el parámetro de escala t). 



I t 



8.2 Propiedades deseables de los estimadores puntuales 263 
La función de verosimilitud es ^,, >,,.. 

LU„ jt 2 , ..., jt„; 0) = /U,; 0)f(x 2 ; 0) -f(x„; 0) 

,V|'' exp(-.v,/fl) • „, xna xr'exp(-x 2 /0) 



Ua)0" ' ' - - " ' r(a)r 

1 



Ha)»' 
1 



*r'exp(-.v„/0) 



ñvr'expf-ive) 



x i / ^ ,.\ njrr' 



r"(a)6" a * 
= /íí 2- v -;0j í?(-v, , -v 2 x„). 



Por el teorema 8.4, S" = , A - , es una estadística suficiente para 0. 

Supóngase, én el ejemplo 8.4, que se considera un estimador de de la forma 

T = — ¿ *,. (8.8) 

puede verse que T es una función de la estadística suficiente YX¡. 

Por lo tanto, T también es una estadística suficiente para 8 dado que la función de 

verosimilitud para el ejemplo 8.4, puede factorizarse como 

L(x,,x 2 , ...,x„) = h(t; 0)g(x u x 2 , ...,x„). 

en donde IX ¡ = naT y 

h(t;0) = -^exp(-nat/0). (8.9) 

Como resultado se tiene que se satisfacen las condiciones del teorema de factoriza- 
ción. De hecho, puede demostrarse que cualquier función uno a uno de una estadís- 
tica suficiente, también es suficiente. 

Ejemplo 8.5 Sea A - ,. A\ X„ una muestra aleatoria de una distribución de 

Poisson cuya función de probabilidad es 

p(x\ \) = \- v exp(-\)/jr! x = 0, 1,2 

Demostrar que el estimador eficiente de X es a su vez una estadística suficiente. 

DeJ ejemplo 8.3, recuérdese que el estimador eficiente de \ es la media muestral 
X. Se necesita demostrar que\ es una función uno a uno de una estadística suficien- 
te para X. La función de verosimilitud es 



264 Estimación puntual y por intervalo 

L(x,, x 2 , ..., x n ; X) = p(x¡; X) p(x 2 ; X) ••• p(x„; X) 

_ X J 'exp(-X) X?exp(-X) X J "exp(-X) 
*,! x 2 l x„\ 

n 

. = X sr ' u 'Texp(-nX)/n^! 



\ 


1 


3/2 


2 


5/2 


3 


P(2; X) 


0.1839 


0.2510 


0.2707 


0.2565 


0.2240 



Aparentemente p(2; X) crece hasta un valor máximo de 0.2707 para X = 2, y 
disminuye para X > 2. El valor de 2 de X es el que maximiza la probabilidad del va- 
lor observado. En otras palabras, la observación x = 2 tiene una probabilidad ma- 
yor de ocurrencia para una distribución de Poisson con X = 2 que para cualquier 



f. 



i 



= h(2xi-,k)g(x t , x 2 , ..., x„) ^ 

en donde * 

/i(Xr,;X) = X^'exp(-/iX). 

Por el teorema 8.4, la estadística 2" = , X¡ es suficiente para X. Dado que el estimador 
X es una función uno a uno de esta estadística, X también es suficiente para X. 



8.3 Métodos de estimación puntual 

En la sección anterior se mencionaron las propiedades deseables de un buen estima- 
dor. En esta sección se estudiará cómo obtener estimadores que, de manera general, 
tengan buenas propiedades. Específicamente se considerarán los métodos de máxi- 
ma verosimilitud y el de momentos. En el capítulo 13 se encontrará el método de 
mínimos cuadrados que se emplea para ajustar ecuaciones. 

8.3.1 Estimación por máxima verosimilitud 

Para introducir el concepto de estimación de máxima verosimilitud, piense en el si- 
guiente hecho. El desborde de ríos y lagos es un fenómeno natural que a veces tiene 
devastadoras consecuencias. Supóngase que en cierto año hubo dos serias inunda- 
ciones, por este fenómeno, en determinada región geográfica. Si se supone que el 
número de inundaciones por año en esta localidad es una variable aleatoria de Pois- 
son con un valor del parámetro X .desconocido, ¿cómo debe procederse para estimar 
el valor de X con base en una sola observación x = 2? Un posible método es selec- 
cionar el valor de X para el cual la probabilidad del valor observado es máxima. Es 
posible, para el valor observado, que X sea cualquier número positivo. Para propósi- 
tos de la presentación, supóngase que los posibles valores de X son 1, 3/2, 2, 5/2 y 3. 
Las probabilidades para el valor observado x = 2 para cada uno de estos valores de 
A son las siguientes: 



8.3 Métodos de estimación puntual 265 

otro valor del parámetro X. Puede demostrarse que el valor X = 1 es el que maximi- 
zaa X = 2 tomando la primera derivada de p{2; X) con respecto a X e igualándola 
a cero. Dado que ' 



se tiene 



p(2;X) = X 2 exp(-X)/2!, 



dp(2; \) 1 r , 

^ =-[-X 2 exp(-\) + 2Xexp(-X)] 



X exp( - X) 



(2-X). 



Igualando la primera derivada a cero se tienen las raices X = o X = 2. La segunda 
derivada con respecto a X da como resultado la expresión exp(- X)[l — 2X + 
(\ 2 )/2], cuyo valor para X = 2es-exp(-2) < 0. De esta forma, el valor x = 2 es 
aquél para el cual el valor de la probabilidad de la observación es máximo. Este va- 
lor recibe el nombre de estimador de máxima verosimilitud. 

En esencia, el método de estimación por máxima verosimilitud, selecciona como 
estimador a aquél valor del parámetro que tiene la propiedad de maximizar el valor 
de la probabilidad de la muestra aleatoria observada. En otras palabras, el método de 
máxima verosimilitud consiste en encontrar el valor del parámetro que maximiza 
la función de verosimilitud. 

Definición 8.6 Sea X¡, X 2 , . . . , X„ una muestra aleatoria de una distribución con 
función (densidad) de probabilidad f(x; 6), y sea L(x¡ , x 2 , ..., x„; 0) la verosimili- 
tud de la muestra como función de 6. Si t = u(x , , x 2 , . . . , x„ ) es el valor de para 
el cual el valor de la función de verosimilitud es máxima, entonces T = u(.X¡ , X 2 , . . . , X„ ) 
es el estimador de máxima verosimilitud de 0, y / es el estimador de máxima verosi- 
militud. 

El método de máxima verosimilitud (MV) tiene la propiedad (deseable) de pro- 
porcionar estimadores que son funciones de estadísticas suficientes, siempre y cuando 
el estimador MV sea único. Además, el método MV proporciona el estimador eficien- 
te, si es que existe. Sin embargo, los estimadores MV son generalmente sesgados. El 
procedimiento para obtener este tipo de estimadores es (relativamente) directo. Debi- 
do a la naturaleza de la función de verosimilitud se escoge, por lo común, maxi- 
mizar el logaritmo natural de L{0). Esto es, en muchas ocasiones es más fácil obtener 
el estimado MV maximizando lnL(0) que L(0). En los siguientes ejemplos se ilus- 
tra el método. 



Ejemplo 8.6 En un experimento binomial se observan X = x éxitos en n ensayos. 
Obtener el estimador de máxima verosimilitud del parámetro binomial p. 

En este caso la función de verosimilitud es idéntica a la probabilidad de que X = 
x\ de esta forma 

n\ 



Ux\ p) = 



(n - xV.xl 



P T (1 - P)" 



0« p « 1. 



266 Estimación puntual y por intervalo 

Entonces 

\nL{x;p) = ln(«!) - ln[(/i - x)l] -..ln(x!) + x ln(p) + (n - .x)ln(l - p). 

Para encontrar el valor de/7, para el cual lní, (x: p) tiene un valor máximo, se toma 
la primera derivada con respecto a p y se iguala a cero: 



d[\nL(x; p)] x (n - x) 



dp 



P (1 -p) 



= 0. 



Después de resolver para/7, se obtiene el estimador MV de p el cual recibe el nombre 
de proporción muestral X/n, y el estimado MV es x/n. Para confirmar que este valor 
maximiza a \nL(x; p), se toma la segunda derivada con respecto a/7 y se evalúa en 
x/n: 

d 2 [\nL(x; p)] _ np(l - p) + (x - np)(\ - 2p) 
dp 2 [p{\ - p)f 

y 

d 1 [\nL(x; p)] 



dp 2 



x/n 



(x/n) 2 [l - (x/n)] 



x/n< 1, 



lo que confirma el resultado, dado que la segunda derivada es negativa. Para un 
ejemplo específico, si se observan x = 5 con base en 25 ensayos independientes, el esti- 
mado MV de p es 5/25 = 0.2. 

Ejemplo 8. 7 Sea X U X 2 , . ■ ■ , X n una muestra aleatoria de una distribución normal 
con una función de densidad de probabilidad 

1 



f(x; fj.,o- ¿ ) = 

y/lna 

Determinar los estimadores de ¿i y a 2 . 



exp[-(* - M)72o- z ]. 



Para este problema se procederá de la misma forma que en el caso de un sol© pa- 
rámetro. Dado que la función de verosimilitud depende tanto de ¿i como de cr 2 , los 
estimados MV de /u, y a 2 son los valores para los cuales la función de verosimilitud 
tiene un valor máximo. De acuerdo con lo anterior 



L(x,, x 2 , ..., x„;i¿, o- 2 ) = — exp[ - (x¡ - fj.) 2 /2a 2 ] j=- 

\2tt(t yltra 



x e\p[-(x„ - ti) 2 /2a 2 ] 



= (27TO- 2 ) 



n/2 



exp 



1 
— i 2 tx; - (J.) 2 

2 <7 ,= l 



1 

\nL(x,, x 2 , ..., x„;ti, cr 2 ) = --ln(27r) - -ln(o- : ) --j^ (.v, - ¡x) 2 . 

2 2 2(7 , = l 



8.3 Métodos de estimación puntual 267 

Después de obtener las primeras derivadas parciales con respecto a \i y con respecto 
a o 2 e igualándolas a cero, se tiene 

-', a[ln¿(/t, o- 2 )] 2"^' ' 

y -_ ■ • 

I* d[lnL(/A,o- 2 )] n , 1 A ,2 A 

¡ ¿(cr 2 ) = ~2? + 2? ,?, <* - M) = °- 

Resolviendo la primera ecuación para fi, sustituyendo este valor en la segunda y re- 
solviendo para o- 2 , se tiene 

n 



* 2 = 2 (x, - x) 2 /n. 

A pesar de que no se verificará que estos valores maximizan la función de verosi- 
militud, ellos son los estimados MV de /¿ y o- 2 , respectivamente. Si existe alguna duda 
tómense las segundas derivadas. Sin embargo, dado que una función de verosimi- 
litud es el producto, ya sea de probabilidades o de densidades, éstas generalmente se 
encuentran acotadas y son continuas en los parámetros. En consecuencia, el resulta- 
do usual es que la solución de la primera derivada proporcionará el valor para el cual 
la función es máxima. 

Nótese que se ha introducido la acostumbrada notación "sombrero" ~ para de- 
notar un estimador MV. Se empleará esta notación cuando sea necesario. Nótese 
también que el estimador MV de <r 2 es sesgado, confirmándose de esta manera un 
í| comentario anterior en el sentido en el que los estimadores MV no necesariamente 

son insesgados. 

El método de máxima verosimilitud posee otra propiedad deseable conocida 
como propiedad de invarianza. Sea = u(X t , X 2 , ..., X n ) el estimador de máxima 
verosimilitud de 0. Si g(d) es una función univaluada de 6, entonces el estimador de 
máxima verosimilitud de#(0)es g(0). Por ejemplo, dado que, cuando se muestrea 
una distribución normal, el estimador MV de cr es 

a 2 = l - ¿ (x, ~ *) 2 , 

por la propiedad de invarianza, el estimador MV de la desviación estándar cr es 






a = 



1 Í (x, - x) 2 



1/2 



268 Estimación puntual y por intervalo 

Como ejemplo adicional de la propiedad de invarianza, el estimador MV de la fun- 
ción de confiabilidad Weibull es 

R(t) = exp[-(//0) a ], 
en donde 8 es el estimador MV del parámetro de escala 9. 

8.3.2 Método de los momentos 

Quizá el método más antiguo para la estimación de parámetros es el método de los * 

momentos. Éste consiste en igualar los momentos apropiados de la distribución de la 
población con los correspondientes momentos muéstrales para estimar un pará- 
metro desconocido de la distribución. 

Definición 8.7 Sea X, , X 2 , ..., X„ una muestra aleatoria de una distribución con 
f urH.ón (densidad) de probabilidad f(x; 9). El r-ésimo momento alrededor del cero 
se define como 

El método de los momentos proporciona una alternativa razonable cuando no se 
puedendeterminar los estimadores de máxima verosimilitud. Recuérdese que los pa- 
rámetros son, en general, funciones de los momentos teóricos. Por ejemplo, si la va- 
riable aleatoria X tiene una distribución gama (véase la sección 5.5), entonces 

fi = a9 (8.10) 

y 

H 2 = o(o + 1)0 2 . (8.11) 

Resolviendo (8.10) para a y sustituyendo en (8.11), se tiene 

a = fi/e (8.12) 

y 

fl (fl 



/r + fi9. 



= (/i; - /r)//¿- (8.13) 

Sustituyendo (8.13) para d en (8.12), se obtiene 

a = /x7(/4 - fl 2 ). (8.14) 

De esta forma, los dos parámetros de la distribución gama son funciones de los pri- 
meros dos momentos alrededor del cero. 



8.3 Métodos de estimación puntual 2fc<> 

En esencia, el método se implementa igualando tantos momentos muéstrales con 
los correspondientes momentos teóricos tantas veces como sea necesario para deter* 
minar un estimador de momentos para un parámetro desconocido. Por ejemplo.pof 
(8.13) y (8.14), los estimadores de momento de los parámetros gama y a sonsv 

x .: e = (M' 2 -X 2 )/X x , (8.15) 



5 = X 2 /{M' 2 - X 2 ), (8.16) 

respectivamente, en donde se emplea la notación de tilde ( T ) para denotar un esti- 
mador de momentos. Como ilustración adicional, recuérdese el ejemplo 4. 10. Se de- 
mostrará que los parámetros p y k de una distribución binomial negativa también 
son funciones de los primeros dos momentos alrededor del cero, ya que 

P = mA¿¿: - Pt 2 ) 



k = ti 2 /(ii' 2 - fi 2 - fi). 
Por lo tanto, los estimadores de momentos de p y k están dados por 

p = X/(M' 2 - X 2 ) (8.17) 

y 

k =X 2 /(M 2 -X 2 -X), (8.18) 

respectivamente. 

8.3.3 Estimación por máxima verosimilitud para muestras censuradas 

En algunas situaciones de muestreo, en forma especial en las pruebas de duración, el 
procedimiento de prueba puede terminar antes de proporcionar una muestra aleato- 
ria completa. En esta sección se considerará el principio de máxima verosimilitud 
para la estimación de parámetros desconocidos con base en este tipo de muestras, las 
cuales reciben el nombre de muestras censuradas o truncadas. En este contexto, 
las ideas se concentrarán, en forma exclusiva, alrededor de la noción de una prueba 
de duración. 

Una prueba típica de duración consiste en artículos iguales (tales como compo- 
nentes eléctricos o mecánicos) seleccionados en forma aleatoria de un proceso y ope- 
rados en un medio cuidadosamente controlado hasta que el artículo falla. En este 
caso, la medición de interés es el lapso de tiempo que cada unidad tarda en fallar. Si 
la prueba de duración se termina sólo cuando todas las unidades de la muestra han 
fallado, se dice que la muestra aleatoria de tiempos está completa. Sin embargo, por 
restricciones económicas y de tiempo, generalmente la prueba termina ya sea des- 
pués de un lapso de tiempo predeterminado x n o después de que falla un determina- 
do número de unidades m *£ n. Las dos condiciones producen muestras censura- 



270 Estimación puntual y por intervalo 

das. Si X es un lapso fijo de tiempo, el número de unidades que fallan de las n , des- 
de el comienzo de la prueba hasta el tiempo x , es una variable, aleatoria; ésta consti- 
tuye una muestra censurada de tipo I. .Sj¿/n¿§ fjjoy el tiempo determinación X m es la 
variable aleatoria, se dice que la muestra;,» de tipo II. Sin considerar la inferencia, 
existe muy poca diferencia entre estos dos tipos de muestras. De acuerdo con lo ante- 
rior, se restringirá la presentación al muestreo censurado de tipo II. 

Los datos muéstrales de una prueba de duración son los tiempos en los que se dio 
una falla. Por ejemplo, supóngase que la primera falla ocurrió en un tiempo igual a 
x, desde el comienzo, la segunda se presenta a x 2 desde el comienzo y así hasta que 
ocurre la /n-ésima falla en un tiempo por x m , en donde m ^ n es el número, fijado 
de antemano, necesario para terminar la prueba. Los tiempos que se observaron de falla 
jc, , x 2 , ..., x m constituyen una secuencia ordenada, porque x x *£ x 2 *£ ••• «£ x m . 
Nótese que en el momento en que se da por terminada la prueba, existen n - m uni- 
dades que todavía no han fallado; estas n - m unidades tienen un tiempo de supervi- 
vencia x m . Es claro que se tiene el tamaño completo de la mu-str" cuando m = n. 

Supóngase que los tiempos de duración de las unidades son variables aleatorias 
X u X 2 > . . . , X„ independientes exponencialmente distribuidas, con una función de densidad 



f{x;0) = -zxv(-x/0), 



x>o, >o. 



El interés recae en encontrar el estimador de máxima verosimilitud del parámetro 6. La 
función de verosimilitud para un muestreo censurado del tipo II es la probabilidad con- 
junta de que fallen m unidades en los tiempos x t , x 2 ,..., x m en ese orden, y sobrevivan 
n-m unidades con un tiempo de supervivencia igual a x m . La parte de la función de ve- 
rosimilitud que corresponde a las m unidades que han fallado en los tiempos jc, , x 2 , . . . , 
x m , es f(x t ; 6)f(x 2 ; 6) ■■■ f(x m ; 9). Pero ésta es sólo una de las posibles formas en que 
pueden fallar m unidades de un total de n. El número total de formas es nl/(n - m)\. 
La probabilidad de que n-m unidades sobrevivan un tiempo x m , está dada por la fun- 
ción de confiabilidad a tiempo x m ; de esta forma, para la distribución exponencial, 

P(X>x m ) = exp(-x m /0). 
Por lo tanto, la función de verosimilitud es 



L(x¡ , x 2 , ..., x m ; 0) 



n\ 



(n~my.¡ l e exp{ - x ' /e) - l 6 exp( ' xJe) 



m términos 



n\ 



(n - m)\ {& 



ni 



(n - m)\ 



1 



exp 






exp 



S-*/ 



exp(-xJO) ■■■exp(-xjd) 

K , , 

(n-m) términos 

(n - m) 



■ exp 



e 



■ x„, 



(8.19) 



8.4 Estimación por intervalo 271 



en donde; 

i ! ¡ \>'.'"-'J ■ ■ *:.p 1 ..' 

Tomando el logaritmo natural de L, se tiene 



T n, = ,E */ +-(".r~ m ^ 



lnL(.r,,.r 2 , ...,x„,\ 0) = ln(n!) - lnt(« - m)l] - m\n9 - -T m 

d 



i 



Entonces 



J[lnL(.r,, Ir,, '..., x„;0)] _ m J_ T 
</0 fl 2 "' 



e igualando la derivada a cero, el estimado de máxima verosimilitud de es 



2 -t, + (n - m)jc„ 



m. 



(8.21) 



Ejemplo 8.8 Las calculadoras científicas de bolsillo comúnmente disponibles con- 
tienen paquetes de batería que deben reemplazarse después de una cierta cantidad de 
tiempo de uso. Supóngase que de un proceso de producción se seleccionan, en forma 
aleatoria, 50 paquetes de baterías y se someten a una prueba de duración. Se decide 
terminar la prueba cuando 15 de los 50 dejan de funcionar de manera adecuada. Los 
tiempos observados, en orden, en los que ocurrió la falla, son 115, 119, 131, 138, 
142, 147, 148, 155, 158, 159, 163, 166, 167, 170 y 172. Si los anteriores valores son 
realizaciones de un conjunto de variables aleatorias independientes exponencialmen- 
te distribuidas, se debe obtener el estimado de máxima verosimilitud para 6. 

En este ejemplo, 

15 

n = 50, m = 15, % x¡ = 115 + 119 + ••■ + 172 = 2250, y x l} = 172. 
í= i 

Por lo tanto, por (8.21), 

2 2250 + (50 - 15)172 

= — = 551.33 horas. 



r 

+ B 
rt f 



8.4. Estimación por intervalo 

Para introducir la noción de una estimación por intervalo, supóngase que una tienda 
mantiene muy buenos registros con respecto al número de unidades de cierto pro- 
ducto que vende mensualmente. Para la compañía es muy importante conocer la de- 
manda promedio ya que con base en ésta se lleva a cabo el mantenimiento del inven- 
t -se- $~pó qt la daman^andel producto no se ve afectada por fluctuaciones 



1 a 

a $ 

+ - edpo 

a ' ■ ^ 



m 



an - 



r ni opequ'a 

ff"» fcgri pn 
" dpo-b 



Od 



272 Estimación puntual y por intervalo 

la media muestral es x = 200 unidades. En otras palabras, x - 200 es un estimado 
puntual de un parámetro desconocido, el cual representa la demanda promedio de 
este producto en la tienda. Este estimador, ¿implica que la demanda media descono- 
cida no sea mayor de 250 ni menor de 150? En este punto no es posible saberlo, ya 
que no se tiene ninguna indicación del posible error en el estimado puntual. El error 
en el estimado puntual se mide en términos de la variación muestral del correspon- 
diente estimador. 

Por ejemplo, supóngase que la desviación estándar de la media muestral X es 60 
unidades. De acuerdo con el teorema central del límite, puede argumentarse que 
X -> N(fi, 60), conforme n — > oc. De esta forma, la probabilidad de que X se en- 
cuentre dentro de dos desviaciones estándar alrededor de¿t. es de, aproximadamen- 
te, 0.95. En otras palabras, para n grande, 

P(\X - /¿| < 120) = 0.95, 
o 

P(- 120 <X - (i< 120) = 0.95. (8.22) 

Restando X y multiplicando por -1 en el interior de los paréntesis, se tiene 

P(X - 120 < fi < X + 120) = 0.95. (8.23) 

Si se sustituye el estimado para x = 200 A", se tiene 

A80 < fi < 320) = 0.95, (8.24) 

lo que sugiere que es enteramente posible que la demanda sea Jan grande como 250 
unidades o tan pequeña como 150 unidades, siempre que d.e.(X) = 60. Por otro la- 
do, supóngase que la desviación estándar de A" es igual a 10. Entonces, la expresión 
correspondiente a (8.23), es 



y para x = 200, 



P(X - 20 < fj. < X + 20) = 0.95, 



P(180 < fi < 220) = 0.95. 



En este caso es poco probable que n sea tan grande como 250 o tan pequeño como 
150. 

En ambos casos la clave para resolver el problema se encuentra en la desviación 
estándar del estimador puntual. En esencia, para la estimación del intervalo se consi- 
deran, tanto el estimador puntual del parámetro 0, como su distribución de muestreo, 
con el propósito de determinar un intervalo que, con cierta seguridad, contiene a 0. 

Para tener una mayor ¡dea acerca de la estimación por intervalo, es necesario in- 
terpretarel significado de (8.23) y (8.24). Dado que X es una variable aleatoria, el in- 
tervalo X - 120 a X + 120 es un intervalo aleatorio, y la probabilidad de que 
este intervalo contenga el valor verdadero de /¿ es de 0.95. En otras palabras, si se ob- 
tuviesen muestras del mismo tamaño en forma repetida de una población, y cada vez 
que éstas se seleccionan, se calculan los valores específicos para el intervalo aleatorio 
(X - 120, X + 120); entonces debe esperarse que un 95% de estos intervalos 



8.4 Estimación por intervalo 273 

contengan el valor de la media desconocida ¡i. Por otro lado, el intervalo específico entre 
80 y 320 no es más que una realización del intervalo aleatorio (X - 120, X + 120); 
con base en los datos de una sola muestra, en la que el estimado es j = 200. 
Dado que el valor de probabilidad de 0.95 se refiere sólo al intervalo aleatorio 
(X - 120, X + 120), es incorrecto decir que la probabilidad de que m se encuentre 
contenido en el intervalo (80, 320) es de 0.95. Esto e$, no puede asociarse ningún va- 
lor de probabilidad a la proposición 80 < ¡x < 320, debido a que ésta contiene sólo 
constantes. Sin embargo, la probabilidad de 0.95 para el intervalo aleatorio sugiere 
que la confianza en que el intervalo (80, 320) contenga el valor de la media descono- 
cida fi es alta. Sólo én este sentido se permite asignar un grado de confianza a 
la proposición 80 < \l < 320 igual a la probabilidad del intervalo aleatorio (X - 
120, X + 120); así, cuando se escribe 

P (80 < m < 320) = 0.95, 

no se está formulando ninguna proposición probabilística en el sentido clásico, sino 
más bien se expresa un grado de confianza. De acuerdo con lo anterior, el intervalo 
(80, 320) recibe el nombre de intervalo de confianza del 95% para ¡i. 

En términos generales, la construcción de un intervalo de confianza para un pa- 
rámetro desconocido consiste en encontrar una estadística suficiente T y rela- 
cionarla con otra variable aleatoria X* = f(T; 6), en donde A' involucra a pero 
la distribución de X no contiene a 6, así como tampoco a ningún otro parámetro des- 
conocido. Entonces se seleccionan dos valores x, y x 2 tales que 

P(x, <X<x 2 ) = 1 - a, 

en donde 1 — a recibe el nombre de coeficiente de confiaza. Mediante una manipu- 
lación algebraica de las dos expresiones, se puede modificar el contenido entre pa- 
réntesis y expresarlo como 

P[h,(T) <9< h 2 (T)) = 1 - a, 

en donde h,(T)y /i 2 (7)son funciones de la estadística 7y de esta forma, variables alea- 
torias. El intervalo de confianza para se obtiene sustituyendo en h t (T) y h 2 (T) 
los estimadores calculados a partir de los datos muéstrales, dando origen a lo que 
se conoce como intervalo de confianza bilateral. Al seguirse el mismo procedimien- 
to, también pueden desarrollarse intervalos de confianza unilaterales, de la forma 

P[g¿T) < 6) = 1 - a 
o 

pie < g 2 m] = i - a. 

El primero es un intervalo de confianza unilateral inferior para 9, y el segundo es un 
intervalo de confianza unilateral superior. 

A continuación se examinarán varias situaciones que involucran la construcción 
de intervalos de confianza para medias y varianzas poblacionales. Será aparente que 

* Este método recibe, en general, el nombre de método pivotal, y X se conoce entonces como variable 
aleatoria pivotal. 



274 Estimación puntual y por intervalo i 

í 
la discusión aquí presentada tiene un fuerte parecido al material de las secciones 7.4 f 
tf7:8. .''.' ,-ilí-\ yr;-/'ir.r.v.Í5:3-./>^'.:!^!. .:>hs.,..."\' - , ■• * 

8.4.1 Intervalos de confianza para j*. cuándo se maestrea 
una distribución normal con varianza conocida 

Sea X { , X 2r ■■■, X„ una muestra aleatoria de una distribución normal con media 
desconocida p, pero con una varianza o- 2 conocida. El interés recae en la construcción 
de un intervalo de confianza de un 100(1 — a)% sobre p y en donde a es un núme- 
ro pequeño, tal que < a < 1 . La construcción de un intervalo de confianza se hace 
con base en el mejor estimador de p, explícitamente la media muestral X. 

Para ilustrar el enfoque fundamental para la construcción de intervalos de con- 
fianza, considérese la proposición probabilística dada por (8.22). Sumando p dentro 
de los paréntesis, se tiene 

P(p- 120 < X < p + 120) = 0.95. 

De esta forma, los límites p - 120 y p + 120 son funciones de los posibles valores 
de p. Por lo tanto, y en general, se puede escribir 

P[ gi {p)<X<g 2 (p)] = 1 - a,' (8.25) 

de manera tal que 

ftfl(M) 

i; p)dx = a/2 






i 



f(x; p)dx = a/2, 

en donde /(*; p) es la función de densidad de la distribución de muestreo de X, y 
g\(p)y giip) son funciones de p las cuales no contienen a ningún otro parámetro 
desconocido. _ 

De interés inmediato es la determinación de gi(p) y giip)- Dado que X ~ N(p, 
o~/\/n), la normal estándar Z = (X - p)/(o~/y/n), Y 



P[ gl (p)<X<g 2 (p)} = P 



gAp) - p < z c gi(p> - p 

<r/\Jn o-jyjn 



= 1 - a. (8.26) 



I 



Pero ya que P(z u/2 < Z < Z\- a/2 ) = 1 - a, en donde los valores cuantiles z a/2 
y Zi-„/2 son tales que P(Z< z n/2 ) = a/2 y P(Z<z,- u/2 ) = 1 - a/2, respectiva- 
mente, se sigue que 

g ' (M) r* = ^ a /2 (8-27) 



g 2 {p) _^l = ^ ^ (8 2g) 



o-, 



■Nn 



8. 4 Estimación por interVaío 275 

Dando solución a (8.27) y (8.28) en términos de g\(fi} y g 2 (fi), respectívsímShte; 
se obtienen >"'3rt^!ttó ; .tícsftJfi£«{ 



£ 2 (/¿) = M + Zi-«/2-t=. (8.30) 

Dado que para lá normal estándar z a/2 = -Z|- a/2 , puede sustituirse ~Z\- a/2 para 
z a/2 en (8.29).-De acuerdo con lo anterior, pueden sustituirse las expresiones (8.29) 
y (8.30) para g t (fi) y g 2 (/¿), respectivamente, en (8.25) para obtener 

cr — cr 

-j=<X<fi + z t - a/2 —- 



H/t - z l -„ n —<X< t i + z,- a/2 — ) = l - a. (8.31) 



Al manipular las desigualdades que se encuentran dentro de los paréntesis en (8.31), 
se tiene 

PÍ X - Z| _ a/2 -^= < M < X + Zl _ a/2 -?p j = 1 - a, (8.32) 

que es una generalización de laproposición probabilística (8.23). La probabilidad de 
que el intervalo aleatorio de X - z ¡- a/2 (<r/V«) a X + z,- a/2 (cr/y/ñ) conten- 
ga el verdadero valor de la media m es 1 - a. Si se reemplaza la variable aleatoria 
X en (8.32) por el estimado x calculado a partir de los datos de una muestra de tama- 
ño n, un intervalo de confianza del 100(1 - a)% para ¡jl, es 

en donde x - Z\- a / 2 (cr/\/n) yx + Z\- a / 2 (o'/V") reciben el nombre de limites de 
confianza inferiores y superiores, respectivamente, para m- Esto es, el intervalo 
de confianza (8.33) es un intervalo estimado para /¿. 

Al examinar el intervalo de confianza para m dado por (8.33), es fácil, relativa- 
mente, observar que entre más grande es el tamaño de la muestra, más pequeño es el 
ancho del intervalo; o para un coeficiente de confianza 1 - a más grande, mayor 
es el ancho del intervalo. Ambos resultados son lógicos ya que un tamaño grande de 
la muestra disminuirá la varianza del estimador, y un coeficiente de confianza gran- 
de incrementa el valor cuantil dando como resultado un intervalo más amplio. 

Ejemplo 8.9 Los datos que a continuación se dan son los pesos en gramos del con- 
tenido de 16 cajas de cereal que se seleccionaron de un proceso de llenado con el pro- 
pósito de verificar el peso promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 
505, 493, 496, 506, 502, 509, 496. Si el peso de cada caja es una variable aleatoria 
normal con una desviación estándar cr = 5 g, obtener los intervalos de confianza 
estimados del 90, 95 y 99%, para la media de llenado de este proceso. 



276 Estimación puntual y por intervalo 

Para un coeficiente de confianza del 90%, a = 0. 1 . El valor Z0.95 se obtiene de 
la tabla D del apéndice y es igual a 1.645, ya queP(Z > 1.645) = 0.05. Con base 
en los datos muéstrales, el valor de x es de 503.75 g. Entonces un intervalo de con- 
fianza del 90% para la media del proceso de llenado es 

s 
503.75 ± 1.645 



VÍ6' 

o de 501.69 a 505. 81. Los otros intervalos de confianza deseados se obtienen si- 
guiendo el mismo procedimiento. Los resultados se encuentran resumidos en la tabla 
8.1. 

En este momento se considerará un problema que es enteramente similar al del 
ejemplo 8.2. Supóngase que se especifica que el muestreo se efectúa sobre una 
población que tiene una distribución normal con media /¿ desconocida y varíanza 
o- 2 conocida. Se desea estimar el tamaño necesario deja muestra de manera tu. qv -, 
con una probabilidad de 1 = a, la media muestral X s** encuentre en un intervalo 
igual a e unidades alrededor de la media de la población /¿- La expresión (8.31) 
puede reescribirse como 

^(-z.-a/ 2 -7=<^-M<z.--./2'-7=) = 1 -«, (8-34) 

la cual da como resultado 

P(\X - fi\<é)= l - a 



en donde 



e = Zi-„/2— f. (8.35) 

Al resolver para n en (8.35) se obtiene el resultado deseado, 

n = ( £L f^) 2 (8.36) 

La única diferencia entre las expresiones (8.6) y (8.36) es que la primera se obtu- 
vo sin especificar la distribución de la población, mientras que para la segunda se su- 
puso que el muestreo se llevaba a cabo sobre una distribución normal. Por lo tanto, 
es razonable esperar, a pesar de que las dos expresiones sean iguales, que un valor de 
n obtenido mediante el empleo de (8.36) será mucho más pequeño que el correspon- 
diente valor que se obtiene mediante el empleo de (8.6), debido a que para (8.36) se 



TABLA 8.1 Intervalos de confianza para el ejemplo 8.9 

Confianza z, _„ ,. : Límite inferior Límite superior 

90% 1.645 501.69 505.81 

95% 1.96 501.30 506.20 

99% 2.575 500.53 506.97 



8.4 Estimación por intervalo 277 

formularon máp hipótesis. Para comparar, si se supone que se está muestreando una 
distribución normal, el tamaño de la muestra que corresponde a las condiciones da- 
das en el ejemplo, 8.2, podría ser ¿¡fe» 

: " V ' 0-645) 2 10 ^ ,li;! 

« = — ^—^ 7. 

comparado con el valor de n = 25 dado por (8.6). 

Desde el punto de vista de la aplicación, el hecho de que ambas expresiones ten- 
gan como hipótesis el conocimiento de la varianza de la población ar] constituye un 
requisito muy severo. Si no se conoce el valor de <r 2 debe usarse un estimado dea- 2- * 
que quizá pueda encontrarse en una muestra previa. Si este estimado no se encuentra 
disponible pero se conoce, en forma aproximada, el intervalo en el cual se en- 
cuentran las mediciones, una estimación muy burda de la desviación estándar es 
igual a la sexta parte del recorrido de las observaciones, ya que para muchas distri- 
buciones unimodales la gran mayoría de las observaciones se encontrarán dentro de 
un intervalo igual a tres desviaciones estándar, ya sea a la izquierda o la derecha 
de la, media. 

8.4.2 Intervalos de confianza para fi cuando se muestrea 
una distribución normal con varianza desconocida 

Se considerará el problema de encontrar un intervalo de confianza para^t, cuando 
se muestrea una distribución normal y para la cual no se tiene conocimiento acerca 
del valor de la varianza. De la sección 7.6, recuérdese que cuando se muestrea una 
N((i, ar), en donde tanto /x como o- 1 son desconocidos, la variable aleatoria 

X - Ul 

T = £ (8.37) 

tiene una distribución t de Student con n - 1 grados de libertad. Por lo tanto, es po- 
sible determinar el valor cuantil ¿i_ a/2 , n ~\ de T, para el cual 

P(-ti- a n.*-i<T<t i - a/2 , ll - i ) = 1 -«, (8- 38 > 

en donde el valor cuantil es tal que P( T < -/,_ a/2 . „_,) = a/2 y P(T < / t -„/2 .„ -i) 
= 1 - a/2. Al sustituir para Ten (8.38), se tiene 

X — ¡j. 



~< 'i-a/2. «-i I = 1 - a 



s/yjn 



S — s 

'i -a/2, n- I 7= < X — (l < /i_ a /2, „- 1 7= I = 1 

V" vV 






278 Estimación puntual y por intervalo 

Por lo tanto, el intervalo X-± t y _ a/1 „_ , (S/y/n) es un intervalo aleatorio y la 
probabilidad de que éste contenga el valor verdadero de fi, es 1 — c¡. De esta forma, 
dados los datos de una muestra aleatoria de tamaño n a partir de los cuales se calcu- 
lan los estimados x y s 2 , un intervalo de confianza del 100(1 - a)% para ¡i es 






x± /,-a/2. n -|-7=- (8-40) 



Con propósitos de ilustración y comparación, la tabla 8.2 lista los intervalos de con- 
fianza del 90, 95 y 99% para/n, con base en (8.40) y mediante el empleo de los datos 
del ejemplo 8.9, en donde x = 503.75 y s = 6.20. Nótese que para el caso que invo- 
lucra a la distribución t de Student, los intervalos son más amplios. 

8.4.3 Intervalos de confianza para la diferencia de medias cuando se 
maestrean dos distribuciones normales independientes 

Sean X u X 2 , ..., X nx y Y f , Y 2 , ..., Y nr dos muestras aleatorias de dos distribu- 
ciones normales independientes, con medias \l x y fi y y varianzas <j\ y ~\, respecti- 
vamente. Se desea construir un intervalo de confianza para la diferencia n x - p. Y . 
Supóngase que se conocen los valores de las varianzas. Entonces, de la sección 7.7, 
la variable aleatoria 

Z = * - ? ~ ( ^ ~ ^ (8.41) 

V n x n Y 
es N(Q, 1). De esta forma es posible encontrar el valor cuantil Z\~ an> tal que 

P(-z l - a/2 <Z<z í - a/2 ) = 1 - a. (8.42) 

Mediante la sustitución de (8.41) en (8.42) y después de manipular algebraica- 
mente las desigualdades, se tiene 




°> , a-y 

— + — < fJ-x ~ t¿r 
n x n Y 




<X - Y+ z,-„.-. — + — ) = \ - a, (8.43) 



TABLA 8.2 Intervalos de confianza para el ejemplo 8.9 



Confianz a /i-„/2. <,-i Límite inferior Límite superior 

90% I.753 501.03 506.47 

95% 2.131 500.45 507.05 

99% 2.947 499.18 508.32 



8.4 Estimación por intervalo 1J9 

que es un intervalo aleatorio que no contiene parámetros desconocidos. Al igual 
que en el caso de la sección 8.4.1, la variable aleatoria pivotal es la normal estándar 
Z. De acuerdo con lo anterior, un intervalo de confianza del 100(1 -. a)% para 




x-y±z t - a/2 f- + -, ' (8.44) 



en donde el valor cuantil z,- a/2 , es tal que P(Z < Z\- a/2 ) = 1 - a/2. 

Si las varianzas o* y a\ se desconocen pero son iguales, entonces la variable 
aleatoria 

T = X_~ Y- (f*-x ~ Mr) 



S P 






tiene una distribución / de Student con k = n x + n Y - 2 grados de libertad. 
Al seguir el procedimiento anterior, se tiene que un intervalo de confianza del 100( 1 
- á)% para i¿ x ~ i¿y, es 



y ± t,- a/2 . k s p /— + — , (8.45) 

*' n x n Y 



en donde el estimado combinado de la varianza común es 



2 _{.n x - \)s\ + {n r - l)sl 



s„ 



n x + n Y — 2 



Ejemplo 8. 10 Se piensa que los estudiantes de licenciatura de contaduría pueden 
esperar un mayor salario promedio al egresar de la licenciatura, que el que esperan 
los estudiantes de administración. Recientemente se obtuvieron muestras aleatorias 
de ambos grupos de un área geográfica relativamente homogénea, proporcionando 
los datos que se encuentran en la tabla 8.3. Determinar un intervalo de confianza 
unilateral inferior del 907b para la diferencia entre los salarios promedio para los es- 
tudiantes de contaduría y los de administración fx A - fj. Kt al egresar de la licenciatu- 
ra (suponga que las varianzas cr; y a-j, son iguales). 

A partir de los datos muéstrales dados, pueden calcularse las siguientes cantidades: 

n A = 10 fl „ = 14 

x A = 16 250 .v w = 15 400 

.s^ = 1 187 222.22 .si = 1 352 307.69 

.s;, = 1 284 772.73 

.v„ = 1133.48. 



280 Estimación puntual y por intervalo 



TABLA 8.3 Salarios anuales iniciales para recién graduados 



Contadores 



$16 300 
18 200 
17 500 

16 100 
15 900 
15 400 
15 800 

17 300 

14 900 

15 100 



Administradores 



$13 200 
15 100 

13 900 

14 700 

15 600 
15 800 

14 900 
18 100 

15 600 

15 300 

16 200 
15 200 

15 400 

16 600 



'I 



Entonces, un intervalo de confianza unilateral inferior del 90% está dado por 



_L J_ 

V n A n M 

en donde el valor / 9 , 2 = 1 .32 1 , ya que para la distribución / de Student, P(T < 
1.321) = 0.9. Al Sustituir los resultados numéricos, se tiene 



16 250 - 15 400 - (1.321X1133.48) J-j- + -p = 230.05. 



De esta forma, un intervalo de confianza unilateral del 90% para la diferencia real 
entre los salarios promedio es de $230.05. 

8.4.4 Intervalos de confianza para a 1 cuando se muestres 
una distribución normal con media desconocida 

Se examinará el problema de construcción de un intervalo de confianza para la va- 
rianza de la población cr : cuando se muestrea N(/x. a). De la sección 7.5, se recor- 
dará que bajo estas condiciones, la distribución de muestreo de (/; - l)S 2 /o- 2 es 
chi-cuadrada con n - 1 grados de libertad. Entonces es posible determinar los valo- 
res cuantiles Xü ,:. „ i y xi -.. ,:. „ - i. tales que 



X <",/: 



(/( - 1)5" 

< 2 < XÍ-../2. «- I 



(8.46) 



Puede expresarse (8.46) como 

1 
P — > 



> 



X«/:. «-i 



(n - 1)5- xT-a/2. » -i. 



= i - a. 



■-Í3Í&Í fes 



8.4 Estimación por intervalo 281 



Entonces el intervalo 



(n - 1)5- (n - 1)5" 



XT-i»/2. n- 



Xu/2,H-l 



es un intervalo aleatorio el cual contiene a o- 2 y a parámetros conocidos con 
una probabilidad de 1 - a. De esta forma, con base en los datos de una muestra 
aleatoria de tamaño n, se calcula el estimado s 2 y un intervalo de confianza del 
100(1 - a)% paraa 2 ,esde(/z- l)í7xf-a/2, n -,a(n - \)s 2 /xln. -■■ Es intere- 
sante notar que la variable aleatoria pivotal es (n - \)S 2 /cr 2 ya que su función de 
densidad, dada por (7. 16), no contiene ningún parámetro desconocido. 

Ejemplo 8.11 Un proceso produce cierta clase de cojinetes de bola cuyo diámetro 
interior es de 3 cm. Se seleccionan, en forma aleatoria, 12 de estos cojinetes y se mi- 
den sus diámetros internos, que resultan ser 3.01, 3.05, 2.99, 2.99, 3.00, 3.02, 2.98, 
2.99, 2.97, 2.97, 3.02 y 3.01. Suponiendo que el diámetro es una variable aleatoria 
normalmente distribuida, determinar un intervalo de confianza del 99% para la va- 
rianza cr 2 . 



i 



Dado que la confianza deseada es del 99%, a = 0.01 .De la tabla E del apéndice, 
los valores cuantiles Xo.«o.s. n y x«.w. M son 2.60 y 26.71, respectivamente. Para 
terminar, el valor calculado de la varianza muestral es s 2 = 0.0005455. Por lo tanto, 
un intervalo de confianza del 99% para o- 2 es 

(12 - 1)(0.0005455) (12 - 0(0.0005455) 



26.71 



2.60 



(0.0002246, 0.0023079). 



Como lo ilustra este ejemplo, el punto medio de un intervalo de confianza para 
una varianza no coincide con el valor del estimador puntual. Sin embargo, cuando 
se construye un intervalo simétrico como lo es el de la media cuando se muestrea una 
distribución normal, el punto medio del intervalo de confianza coincide con el esti- 
mador puntual. 



Iví 



8.4.5 Intervalos de confianza para el cociente de dos varianzas cuando 
se muestrean dos distribuciones normales independientes 

En el medio industrial muchas veces surge la necesidad de medir y comparar las va- 
riabilidades de dos procesos distintos. Supóngase que se tienen muestras aleatorias 
provenientes de dos distribuciones normales con medias y varianzas desconocidas. 
Sean n x y n Y ,el tamaño de las muestras y S x y S 2 y las varianzas muéstrales. El inte- 
rés se centra en construir un intervalo de confianza para el cociente o- y/al de las 
dos varianzas poblacionales. De la sección 7.8, se recordará que la variable aleatoria 
(Sx/o-x)/(S 2 Y /cri) tiene una distribución F con n x - I y n y - 1 grados de liber- 
tad. Entonces puede escribirse 



282 Estimación puntual y por intervalo 






P\a<lTrí<b) = 1 -a, (8.47) 



en donde a y b son los valores cuantiles inferior y superior de una distribución F tales 
que 

O = Wfl-a/2. n f -l. n x -\ Y O = f¡ _ a / 2 . „ x ~ |. n y - 1 • 

La proposición de probabilidad dada por (8.47) se puede expresar como 

/.| B <|f.4<M = i-« 

¿Y &X 



De esta manera, un intervalo de confianza del 100(1 - d)% para o- 2 r /al está dado 
por 

(as 2 r /sl,bs 2 r /s 2 x ). 

Para ilustrar, recuérdese el ejemplo 8.10. Supóngase que se desea un intervalo de 
confianza del 90% para cr¿/cri . De la tabla G, los valores cuantiles son 

a = I//0.95. ,3.9 = 1/3.05* = 0.328, 

" ~ /0.95, 9. 13 = 2.71. 

Ya que s\ = 1 187 222.22 y s¿ = 1 352 307.69, un intervalo de confianza del 
90% para el cociente cr¿/cri de las dos varianzas desconocidas es 

[(0.328)0 352 307.69)/ 1 187 222.22, (2.71)0 352 307.69)/ 1 187 222.22] 



(0.3736, 3.0868). 

8.4.6 Intervalos de confianza para el parámetro de proporción p 
cuando se muestres una distribución binomial 

El porcentaje de productos defectuosos de un proceso de manufactura es el baró- 
metro mas importante para medir la calidad del proceso para manufacturar un pro- 
ducto dado. Ya que un artículo puede estar defectuoso o no, el número de unidades 
defectuosas es una variable aleatoria binomial, si se supone una probabilidad cons- 
tante e independencia. En una muestra aleatoria de tamaño n el parámetro p que 
representa la proporción de artículos defectuosos es desconocido. Se desea determi- 

* Por interpolación. 



I 



8.4 Estimación por intervalo 283 

nar un intervalo de confianza parap. A pesar de que es posible determinar intervalos 
de confianza exactos para p (véase [2]), se optará por un intervalo de confianza ba- 
sado en una muestra grande. La razón de esta decisión tiene sus raices en el teorema 
5.1, el cual establece qué la distribución de una variable aleatoria binomial tiende 
hacia una normal cuando n tiende a infinito. 

Se demostró en el ejemplo 8.6 que el estimador de máxima verosimilitud de p, 
denotado por P, es 



P = X/n, 



(8.49) 



en donde A" es binomial con parámetros n y p. Nótese que P es un estimador insesga- 
dodep.yaque 



E(P) = -E(X) = np/n 
n 



P- 



1 1 varianza de P se puede obtener de la siguiente forma: 



VariF) = Var(X/n) 

= - 2 lnp(\ -p)] 



= Pd ~ p)/n. 



(8.50) 



Recuérdese que para n grande, la variable aleatoria (X - np)/yjnp(\ - p) es 
aproximadamente M0, 1). Entonces puede demostrarse que la distribución de 



W - P) 



(8.51) 



también tiende a N(0, 1) para n grande. De esta forma, la probabilidad del intervalo 
aleatorio 



P(l - P) 



-a/2 



P + z t 



¡P{\ - P) 



a/2 



(8.52) 



es, en forma aproximada, 1 — « para n grande. De acuerdo con lo anterior, un in- 
tervalo de confianza aproximado del 100 (1 - a)% para el parámetro de proporción 
A es 



/ P(l ~P) ~ _,_ Pd -P) 



(8.53) 



en donde el estimador de máxima verosimilitud p = x/n se obtiene de la muestra 
aleatoria de tamaño n. 



284 Estimación puntual y por intervalo 

Ejemplo 8.12 Un fabricante asegura, a una compañía que le compra un producto 
en forma regular, que el porcentaje de productos defectuosos no es mayor del 5%; 
La compañía decide comprobar lá afirmación del fabricante seleccionando, de su in- 
ventario, -200 unidades de este producto y probándolas. ¿Deberá sospechar la com- 
pañía de la afirmación del fabricante si se descubren un total de 19 unidades defec- 
tuosas eri la muestra? ;■■'■"' 

La sospecha estará apoyada si existe un intervalo de confiabilidad alta para el 
cual la proporción p se encuentra completamente a la derecha del valor asegurado 
0.05 . Se selecciona una confiabilidad del 95% . Dado que la realización de la variable 
aleatoria X es x = 19 y n = 20, el estimado de;? es 19/200 = 0.095. Al sustituir en 
(8.53), se tiene 



0.095 - 1.96 



0.095(1-0.095) 



200 



0.095 + 1.96 



/0.095(I- 0.095) 



ZOO 



el cual resulta ser (0.5436, 0.1356). Aparentemente existe una razón para sospe- 
char de la afirmación del fabricante, ya que el intervalo de confianza se encuentra 
completamente a la derecha del valor asegurado. 

Con respecto al muestreo de una distribución binomial, un problema que surge, 
en forma frecuente, es el de estimar el tamaño de la muestra necesario de manera tal 
que con una confiabilidad de 100(1 - á)% aproximadamente, el estimado del pa- 
rámetro de proporción se encuentre a no más de e unidades de p. Dado el estimador 
de máxima verosimilitud X/n y siguiendo el mismo procedimiento de la sección 
8.4.1, puede expresarse (8.52) como 



- P 



< e 



1 



en donde 



e = z 



1 -u/2 



Pd - P) 



*-s. 



Al resolver para n, se obtiene 



(8.54) 



Nótese que en la expresión anterior n es una función del valor deseado de p. 
Dado que éste no se conoce y, de hecho, es la cantidad que se está intentando estimar, 
lo que de manera general se hace es determinar el valor más conservador de n. Esto 
ocurre cuando la cantidad p(\ - p) es máxima. Pero puede demostrarse que para 
<p < 1,/?(1 — p) es un máximo cuando p = 1/2. En otras palabras, el valor/? = 
1/2 es el que debe emplearse para obtener el tamaño deseado de la muestra con base 
en (8.54). 

A manera de advertencia, los métodos presentados en esta sección deben usarse 
sólo cuando el tamaño de la muestra es suficientemente grande. De otro modo, de- 



8.5 Estimación bayesiana 285 

berán emplearse los intervalos de confianza exactos. A lo largo de estos lincamien- 
tos, de nuevo debe hacerse énfasis en que se supuso que el muestreo siempre se lleva- 
ba a cabo sobre una distribución normal. La construcción de intervalos de confianza 
para las varianzas es, en forma especial, sensible a esta hipótesis. Cualquier des- 
viación sustantiva de esta hipótesis significará una pérdida de la validez de la infe- 
rencia formulada con respecto a las varianzas. Por o(ro lado, los métodos para in- 
tervalos de confianza que involucran medias son, en forma relativa, inmunes a 
modestas desviaciones de la hipótesis de normalidad siempre y cuando el tamaño de 
las muestras sea grande. De esta forma, los métodos presentados de la sección 8.4.1 
a la 8.4.3, tienen una gran validez para muestras de gran tamaño, aun si el muestreo 
no se lleva a cabo sobre una distribución normal. 

Para ilustrar que el uso de la distribución t de Student sigue siendo válido para 
inferencias con respecto a las medias, aun a pesar de que se muestree una distribución 
que no es normal, se simuló el siguiente experimento mediante el empleo del paquete 
IMSL. Se generaron 1 000 muestras de tamaños 15, 30 y 50, a ^ar,.^ de una distribu- 
ción exponencial con parámetro 6 = I A . Ya que es la media de una variable alea- 
toria exponencialmente distribuida, se empleó (8.40) para calcular un intervalo de 
confianza del 95% para para cada muestra aleatoria y se contó el número de inter- 
valos que no contenían el valor supuesto de 10. Para n = 15 se encontró un total 
de 86 de estos intervalos; para n = 30 se tienen 68 y para n = 50 se encontraron 55. 

Si el muestreo se hubiese llevado a cabo sobre una distribución normal, se 
esperarían (0.05) (1 000) = 50 de estos intervalos, de entre 1 000. Parece ser que los 
resultados se acercan a los esperados bajo un muestreo de una distribución normal 
conforme aumenta el tamaño de la muestra aun a pesar de que ésta no provenga de 
una distribución normal. De acuerdo con lo anterior, el efecto que se tiene por una 
violación de la hipótesis de normalidad cuando se utiliza la distribución t de Student, 
parece ser pequeño, aun para un tamaño n relativamente modesto. 



8.5 Estimación bayesiana 

Hasta este momento se ha estudiado la inferencia estadística desde el punto de vis- 
ta de la teoría del muestreo, el cual se basa en la interpretación de la probabilidad 
como una frecuencia relativa. En esta sección se estudiará el enfoque bayesiano de la 
inferencia estadística y, en particular, a la estimación de parámetros. Recuérdese 
que el enfoque bayesiano se basa en la interpretación subjetiva de la probabilidad, el 
cual considera a ésta como un grado de creencia con respecto a la incertidumbre. El 
punto de vista bayesiano considera un parámetro desconocido como una caracterís- 
tica con respecto a la cual puede expresarse un grado de creencia que puede modifi- 
carse con base en la información muestral. Una inferencia con respecto al parámetro 
se formula con base en el grado de creencia modificado. En otras palabras, un pará- 
metro es visto como una variable aleatoria a la que, antes de la evidencia muestral, 
se le asigna una distribución a priori con base en el grado de creencia con respecto al 
comportamiento del parámetro aleatorio. Cuando se obtiene la evidencia muestral, la distri- 
bución a priori es modificada y entonces surge una distribución aposteriori. Es esta distribu- 
ción a posteriori la que se emplea para formular inferencias con respecto al parámetro. 



286 Estimación puntual y por intervalo 

El enfoque bayesiano para la estimación de parámetros ha sido favorecido por 
muchas personas, en forma especial en aquellas situaciones en las que un parámetro 
no puede considerarse, en forma real, como una cantidad fija. Por, ejemplo* es pro- 
bable que la verdadera proporción de artículos defectuosos que produce un proceso 
de manufactura fluctúe ligeramente, lo cual depende de numerosos factores, como 
se mostró en el ejemplo 6.9. Es probable que la verdadera proporción de casas que se 
pierden por concepto de hipoteca varíe dependiendo, en primer lugar, de las condi- 
ciones económicas. La demanda promedio semanal de automóviles también fluc- 
tuará como una función de varios factores incluyendo la temporada. 

8.5.1 Estimación puntual bayesiana 

En esta sección se considerará la determinación de estimadores puntuales baye- 
sianos. Dado que se considera a un parámetro como una variable aleatoria, se deno- 
tará a éste por el símbolo y con 9 a la realización de 6. Supóngase que 6 es una 
variable aleatoria continua* con una función de densidad (a priorí) incondicional 
/ e (0), la cual refleja la creencia a priorí con respecto a la incertidumbre de 0. 
La información muestral se encuentra representada por n variables aleatorias IID 
X t , X 2 , .., X„, con una densidad f(x \ 9) condicional común sobre la realización 
de 0. Del capítulo 7, la función de verosimilitud, condicional a un valor particular 
9, es 

L(x„ x 2 , ..., x„\9)= /(*, | 9)f(x 2 1 9) -f(x n | 0). (8.55) 

Es importante hacer énfasis en que aun cuando es una variable aleatoria, el obje- 
tivo es estimar el valor particular de 9 para el cual la evidencia muestral que repre- 
senta la función de verosimilitud se encuentra condicionada. Es decir, es una 
variable aleatoria no observable que puede tomar varios valores (entre ellos 9,) que 
deriven el resultado muestral. Mediante el empleo del teorema 6.2 y, en particular, 
de (6.24), la densidad aposteriori de dado el resultado muestral x = {x,, x 2 , ..., 
x,,} es 

A9\xJ= r L (xJO)U9) _ (8J6) 



Je 



9)f B (9)d9 



Se sabe que la densidad aposteriori f(6 1 x) representa el grado de creencia modifi- 
cado con respecto a la incertidumbre de O. Pero ¿cómo debe usarse la densidad a 
posteriori para obtener un estimador puntual de 91 Para este propósito, el enfoque 
bayesiano** toma en cuenta una función de pérdida, que representa la consecuen- 
cia económica resultante de haber escogido a/ = u(x ) como el valor estimado cuando 
el valor verdadero es 6. Esto es, la función de pérdida evalúa la pérdida económica 
cuando se dice que el valor de 6 es t, cuando éste es 9. Una función de pérdida, de- 
notada por l(t, 6) , es una función no negativa de t y 9 de tal forma que ésta es cero 

* Es más probable que un parámetro desconocido sea continuo que discreto, pero este último caso 
puede manejarse en forma similar. 
»» Para una presentación más completa del enfoque bayesiano se invita al lector a que consulte [6]. 



8.5 Estimación bayesiana 287 

sólo si t es igual a 6. Nótese que la función de pérdida depende del parámetro aleato- 
rio 0; por lo tanto, ésta también es una variable aleatoria. En este momento se está en 
condiciones de definir un estimador bayesiano. 

Definición 8.8 Sea f e (6) la función de densidad a priori de un parámetro 9, y 
L{x, , x 2 , ■ . . , x„ \ 6) la función de máxima verosimilitud de una muestra aleatoria de 
n variables aleatorias IID condicionadas sobre la realización de 6. Además, sea 
/(0 | x) la función de densidad aposteriori de 0, y sea l(t, 0) la función de pérdi- 
da. El estimador Bayes de 0, T = u(X t , X 2 , .... X n ), es aquél para el cual el valor 
esperado de la función de pérdida dada por 



JO 



es mínimo. 



En la definición 8.8 es claro que para determinar un estimador Bayes, debe espe- ? 

cificarse una función de pérdida. La especificación de esta última es una tarea difí- j 

cil, ya que las consecuencias económicas no son fácilmente medibles. En muchos j 

problemas de aplicación puede formularse un argumento razonable para utilizar una | 

función de pérdida de la forma. I 



/(/, «) = (/- 0?, (8.57) 

la cual se conoce como función de pérdida cuadrática o de error cuadrático. Para 
una función de pérdida cuadrática puede demostrarse que el estimador Bayes de 9 
es igual a la esperanza aposteriori £(0 | x ), de 0. En otras palabras, la media de la 
distribución a posteriori de 9 es el estimador Bayes de para una función de pérdi- 
da de error cuadrático. Nótese que ésta es una elección razonable para estimar el va- 
lor de la realización 6, ya que la media de una variable aleatoria es una medida de 
tendencia central y representa el centro de gravedad de la distribución de probabili- 
dad de la variable aleatoria. 

Ejemplo 8.13 Un vendedor distribuye sistemas estereofónicos, los cuales garantiza 
por un periodo de dos años. Con base en información previa, el vendedor piensa que 
la proporción de unidades que serán enviadas a servicio o a reemplazo durante el pe- 
riodo de dos años tiene un valor cercano a 0.04, aunque existen ligeras variaciones 
de este valor. El vendedor piensa asignar a priori una distribución beta a la propor- 
ción con parámetros a = 1 y /3 = 24. Con base en una muestra aleatoria de 25 
unidades, el vendedor observa dos unidades que necesitarán servicio o reemplazo 
durante el periodo de dos años. Suponiendo que el número de unidades que necesita- 
rán, ya sea servicio o reemplazo en una muestra fija de/i unidades, es una variable 
aleatoria binomial, obtener el estimador Bayes de la proporción. 

En el ejemplo 6.9, se demostró que, para las condiciones de este problema, la 
distribución a posteriori de la proporción también es una distribución beta con una 
densidad dada por (6.36). Denótese a la proporción aleatoria por P. Ya que los para- 



288 Estimación puntual y por intervalo 

metros de la densidad a posteriori de P son x + a y n + /3 - x, y mediante el 
empleo de (5.40), la media a posteriori. 

E(P\x)= * + " (8.58) 

n + a + p 

es el estimador Bayes de la realización/». Antes de calcular el valor del estimador, es 
conveniente comparar el estimador Bayes con el estimador de máxima verosimilitud 
x/n, que se obtuvo en el ejemplo 8.6. Nótese que el estimador Bayes coincide con el 
de máxima verosimilitud sólo si a = /3 = 0. Para este problema el resultado 
muestral para n = 25 es x = 2, y los valores de los parámetros apriori son a = 1 y 
(3 = 24. De esta forma, el estimador Bayes es (2 + l)/(25 + 1 + 24) = 0.06, 
y por comparación, el estimador MV es 2/25 = 0.08. 

Por lo tanto, es evidente que el estimador Bayes se encuentra influenciado tanto 
por el resultado muestral como por la distribución apriori. De hecho, puede decirse 
que si la distribución apriori tiene una varianza pequeña, lo que implica un alto gra- 
do de creencia con respecto a un parámetro aleatorio, entonces la media a posteriori 
tendrá un valor muy próximo a la media apriuñ. Supóngase, para el ejemplo 8.13, 
que los valores de a y (3 fuesen 2 y 48 en lugar de 1 y 24, respectivamente. En- 
tonces el valor de la media apriori debería ser igual al que se dio en 2/(2 + 48) = 0.04 
pero la varianza a priori debe ser, ahora, igual a 0.0007529, que es un valor más pe- 
queño que el anterior (0.0014769). El resultado es la media (2 + 2)/(25 + 2 + 48) 
= 0.0533 y se encuentra más cercano al valor de la media a priori que el estimado 
previo. Por otro lado, si la distribución apriori tiene una varianza muy grande, ésta 
debe ser virtualmente plana, lo cual implica que la creencia apriori con respecto a la 
incertidumbre de un parámetro aleatorio es vaga. En tal caso, la evidencia muestral 
debe tener mucho más peso en la distribución a posteriori que en la distribución a 
priori, y los estimadores de Bayes y MV deberán ser, virtualmente, los mismos. 

El tamaño de la muestra n también tiene influencia sobre la cercanía entre los es- 
timadores Bayes y MV. En general, los estimadores Bayes y MV diferirán entre sí 
por una cantidad que es pequeña cuando se compara con \/\/n. De esta manera, 
para tamaños de la muestra relativamente grandes ambos estimadores se encontra- 
rán muy cercanos el uno del otro. 

8.5.2 Estimación bayesiana por intervalo 

Se puede determinar un intervalo estimado para mediante el uso de la función de 
densidad a posteriori del parámetro aleatorio O. 

Definición 8.9 Sea f(0 | x) la función de densidad a posteriori de O condicionada 
sobre el resultado muestral t .v = {.v,, .v : , ..., a,,}, sean a y b límites tales que 

P(a < B < b | .r) = J f(0 | x)de = y. (8- s 9) 

en donde ay b son funciones del resultado muestral v. Entonces el intervalo (a, b) 
es un intervalo bayesiano tal, que la probabilidad de que 6 se encuentre contenido 
en (a, b) es y. 



8.5 Estimación bayesiana 289 

A diferencia de los intervalos de confianza de la sección 8.4, un intervalo baye- 
siano es, en efecto, un intervalo de probabilidad. En otras palabras, puede decirse 
que la probabilidad de que y se encuentre contenido en el intervalo a, b es 0, 
mientras que con un intervalo de confianza sólo puede decirse que una cantidad de 
100y% N de estos intervalos contendrán el valor real de 9. 

Para ejemplificar un intervalo de probabilidad bayesiano, sea A',, X 2 X„ la 

muestra aleatoria de una distribución normal con media ¡i desconocida y varianza 
o- 2 conocida. Supóngase que la media es un parámetro aleatorio al cual se piensa 
asignar una distribución normal a priori con una función de densidad 

1 , 

/mU) = /== expl -(fi - fí n )-/2cr ¿ ] - » < ¡i < *, 

o- \/2tt 

donde Mo y °o son la media y la varianza a priori, respectivamente. De la presenta- 
ción previa (vea:; e! ejemplo 8.7), la función de verosimilitud dada la realización fx 
es 

Ux t , x 2 , ..:,x„ I m) = (27ro- 2 )-" /: exp[-2(A:, - M ) 2 /2o- 2 ]. 

Entonces, puede demostrarse que la densidad a posteriori de la media condi- 
cionada sobre x también es normal con media 

£(M|x) = l,g fr + / T' (8-60) 

- . - n<r + o- 



y varianza 



Var(M\x) = T°"° 2 . (8.61) 



<T 



De esta forma, el estimador Bayes de fx para una función de pérdida o error cuadrá- 
tico está dada por (8.60). Al igual que en el ejemplo 8.13, nótese que un valor pe- 
queño de la varianza a priori ai proporcionará un estimador Bayes para /x mucho 
más cercano a la media a priori /íq. Además, para Mo y «o, fijas, conforme n crece 
el estimador de Bayes tiende al estimador de máxima verosimilitud x. 

Ejemplo 8.14 Recuérdese el ejemplo 8.9 en el que se determinaron los intervalos de 
confianza del 90, 95 y 99% para el llenado medio ll con base en los pesos de 16 cajas 
de cereal seleccionadas en forma aleatoria y en donde se supuso que los pesos esta- 
ban normalmente distribuidos con o- = 5 gr. Debido a pequeñas perturbaciones en 
el proceso de llenado, supóngase que el llenado medio es una variable aleatoria nor- 
malmente distribuida con media /x = 500 y desviación estándar o- = I . Determi- 
nar los intervalos de probabilidad bayesiana 0.9, 0.95 y 0.99 para ¡j.. 

Del ejemplo 8.9, .v = 503.75; entonces, mediante el uso de (8.60) y (8.61), los 
valores calculados de la media y la varianza a posteriori son 

' . , ( 16X1X503.75) + (500X25) <„,.,,. 
tiM] ^ = (16)(1) + 25 = 50L4634 






m 



m 



290 Estimación puntual y por intervalo 



v - iM ^ Ss;^ 



respectivamente. Dado que la densidad a posteriori de Af es W(501.4634, \A)-6098), 
y ya que para y =f 0.9, />(- 1.645 < Z < 1.645) = 0.9, en donde Z~ N(0, 1), se 
sigue de (8.59) que un intervalo de probabilidad 0.9 para y. que sea simétrico con 
respecto a la media a posteriori es - 



E(M\x) ± 1.645 VVar(M | x). 



De esta fo rma los lími tes son a = E(M \ x) - \M5\/Var(M \ x) y b = E(M \ 
x) + 1 M5\/Var(M \ x). Al sustituir los valores para E{M \ x) y y/VariM | x ), 
se obtiene el intervalo de probabilidad 0.9 (500.18, 502.75) para fi. De manera simi- 
lar, se calculan los intervalos bayesianos para y = 0.95 y y = 0.99. Éstos se en- 
cuentran resumióos en la tabla 8.4. Nótese que los intervalos de probabilidad baye- 
sianos se estrechan de manera más uniforme que los correspondientes intervalos de 
confianza del ejemplo 8.9. 



8.6 Límites estadísticos de tolerancia 

En la sección 5.4 se mencionaron los limites estadísticos de tolerancia y se comentó 
su importancia para estimar la variabilidad de un producto. En esta sección se de- 
sarrollarán límites estadísticos de tolerancia cuando se muestrea una distribución no 
específica de probabilidad, o cuando el muestreo se lleva a cabo sobre una distribu- 
ción normal. Estos límites se conocen como limites de tolerancia independientes de 
la distribución debido a que ésta no se especifica. 

8.6.1 Límites de tolerancia independientes de la distribución 

Imagine un fenómeno aleatorio que involucre la fabricación de un cierto producto. 
Sea A" la variable de medición de este fenómeno, y sea f(x\ 6) la función de densidad 
de probabilidad de X, en donde es un parámetro fijo. 

Definición 8.10 Si D es la proporción de observaciones de la variable aleatoria que 
se encuentra entre los límites L, y L 2 , que son funciones univaluadas de las observa- 
ciones de manera tal que 

D = i f(x; 0)dx = F X (L 2 ; 6) - F X (L X \9), - (8.62) 

entonces L, y L 2 reciben el nombre de límites estadísticos de tolerancia. 
TABLA 8.4 Intervalos de probabilidad bayesiana para el ejemplo 8.14 





Probabilidad 


Límite inferior 


Límite superior 






0.9 

0.95 

0.99 


500.18 
499.93 
499.45 


502.75 
502.99 
503.47 


i 



8.6 Límites estadísticos de iólérárWS^ 2$p 



■i:. 
i* 



Wgfcf 



■ 



Ya que ¿, y ¿ 2 son funciones univaluadas de las observaciones, ellas mismas 
son variables aleatorias. A su vez, la proporción D es una variable aleatoria, y la. 
proposición de probabilidad , ,'-■•< ¡Vi' 1 "* 



P(D >d) = y 






tiene un significado que se interpreta como la probabilidad y de que la proporción 
dé valores en la distribución de X entre L, y L 2 no sea menoi que d. ' J 

Sean X (r) y A r ( „_ r+1) el r-ésimo valor más pequeño y el (n -r + l)-ésimo valor 
más grande, respectivamente, en una muestra aleatoria de tamaño n la cual invo- 
lucra a la variable de medición X. Se ha demostrado que la proporción de valores D 
que se encuentran entre ¿, = X (r) y L 2 = X (n _ r+)) tiene una distribución beta con 



parámetros a = n - 2r + 1 y ¡3 = 2r, sin importar la forma de la función de 
densidad de probabilidad de X, en donde ¿,y L 2 son de orden simétrico. De esta 
forma 



P{D > d) = 1 - F B {d; n - Ir + I, Zr) = 



y- 



(8.63) 



La expresión (8.63) es muy fuerte porque permite la determinación de limites 
estadísticos de tolerancia sin necesidad de especificar la distribución de la variable 
aleatoria A" de interés. Estos limites se conocen como límites de tolerancia indepen- 
dientes de la distribución. Nótese que la relación (8.63) involucra cuatro cantidades, 
n,r,dy y. Con el uso de las tablas beta el conocimiento de tres de ellas proporciona- 
rá el valor de la cantidad fáltame. 

El principal uso de (8.63) es determinar el tamaño más pequeño de la muestra de 
manera tal que con una probabilidad y por lo menos una proporción d de la distri- 
bución de X se encuentre incluida entre los dos valores extremos de la muestra, X w 
y X {n) . Esto es, para r = 1, (8.63) se reduce a 

P(D^d)= 1 -F B (d;n - 1,2) = y, 



la que puede simplificarse para obtener 

7=1- [nd n ~ 



(n - \)d n ], 



(8.64) 




lo que da como resultado una expresión en la que puede aparecer la función de 
distribución beta como una suma si uno de los parámetros de forma es un número 
entero pequeño (véase [1]). 

En la figura 8.2 se dan varias proporciones útiles de d en función del tamaño de 
la muestra n y la probabilidad y. Por ejemplo, si se obtiene una muestra de tamaño 
25 de una distribución con una función de densidad desconocida, la probabilidad de 
Que por lo menos el 80% de los valores de X se encuentren entre los dos valores 
extremos de la muestra es de 0.973. 

Muchas veces se buscan límites de tolerancia unilaterales de manera tal que la pro- 
babilidad de que por lo menos una proporción d de la distribución de X sea más 
grande de un límite de tolerancia inferior o menor que un límite de tolerancia supe- 
rior, sea y. Puede demostrarse, sin importar la distribución de X, que 



P(D^d) = 1 - F B (d; n - r + 1, r) = y. 



(8.65) 



292 Estimación puntual y por intervalo 




0.700 
0.600 
0.500 



FIGURA 8.2 Proporciones d como funciones del tamaño de muestra n y probabilidad 7. 



Nótese que si r = I, la inferencia se formulará con base en el valor mas pequeño de 
la muestra, X m ; si r = n, la inferencia se formulará con base en el valor más grande, 
X {n) . Puede demostrarse que, para r = 1, la expresión (8.69) se reduce a 

P(D^d) = 1 - d n = y. 
De esta manera, al obtener el resultado para el tamaño de la muestra n, se tiene 



l m 



)og(l - y) 
logW) ' 



(8.66) 



La expresión (8.66) permite la determinación del tamaño necesario de la muestra 
para que con una probabilidad -y, por lo menos una proporción d de los valores de X 
sean más grandes que el valor más pequeño de la muestra. 



8.6 Límites estadísticos de tolerancia 293 

8.6.2 Limites lie tolerancia cuando se muestres una distribución normal 

En algunas situaciones la distribución de interés puede modelarse en forma ade- 
cuada por una distribución normal. En esta' sección, se examinarán los límites 
estadísticos de tolerancia para estas situaciones. 

Recuérdese que. los límites estadísticos de tolerancia colocan límites sobre las 
mediciones que se llevan a cabo sobre una distribución a diferencia de los intervalos 
de confianza, los cuales determinan a aquéllos donde es probable que se encuentre 
un parámetro desconocido. De esta forma, si el muestreo se lleva a cabo sobre una 
distribución N(h;<t) de manera tal que tantos como o- son conocidos, entonces, por 
ejemplo, los límites m ± 1.645o-, /¿ ± 1.96o-, y/i ± 2.575o- incluirán al 90, 95 y 
99% de la distribución, respectivamente. O para los límites unilaterales, el 90% de 
las observaciones de la distribución excederá el límite inferior de ¿i - 1 .28o-, y el 
99% será menor del límite superior ju, + 2.33o-. El único problema, con toda seguri- 
dad, es que no es muy común el conocer los valores de la media /x y la varianza o 2 . 

Supóngase que se consideran los estimadores X y S 2 . Dado que ambos son 
variables aleatorias y están sujetas a la variabilidad en el muestreo no es verdad 
decir, por ejemplo, que el 90% de la distribución estará contenido en el intervalo, 
X ± 1.6455. En forma alternativa, considere el intervalo aleatorio X ± kS^cn 
donde k es unaconstante apropiada perteneciente a la distribución conjunta de A' y 
S 2 . Dado que X ± kS son límites aleatorios, es imposible establecer con absoluta 
certeza qué porcentaje de la distribución estará contenido entre estos límites. En 
otras palabras, al igual que con los intervalos de confianza, no es posible encontrar 
un valor de k tal que los límites calculados, con base en alguna muestra aleatoria, 
siempre incluyan un porcentaje fijo de la distribución. Sin embargo, es posible selec- 
cionar un valor de k tal que si se obtienen en forma repetida muestras del mismo ta- 
maño de una distribución normal, proporción fija 7 de estos límites contendrá 
por lo menos un 100rf% de los valores de la distribución. Es decir, el intervalo alea- 
torio X ± kS tiene una probabilidad y de contener por lo menos un 100rf% de la 
distribución normal muestreada. Con base en una muestra aleatoria de tamaño n los 
limites de tolerancia bilateral de un 100y% para un porcentaje lOOrfde una distribu- 
ción normal son x ± ks, en donde y es el coeficiente de confianza y d es el alcan- 
ce de la distribución. La tabla H contiene valores de k para valores seleccionados de 
n, y, y d. 

Muchas veces sólo se tiene interés en los límites de tolerancia unilaterales. Por 
ejemplo, en la fabricación de pistones, si el diámetro se encuentra por debajo de 
cierta tolerancia, el pistón debe desecharse. Sin embargo, si el diámetro del pistón es 
mayor que cierta tolerancia, éste puede ser reprocesado hasta alcanzar un nivel acep- 
table. Como era de esperarse, los valores de k para los límites unilaterales no son 
iguales a los que se encuentran en la tabla H. Éstos se hallan en la tabla I del apéndi- 
ce para los valores de n, y, y d más frecuentemente utilizados. De acuerdo con lo an- 
terior, puede determinarse un valor de k tal que, con una confiabilidad del iOOy % 
de que por lo menos un 100</% de los valores de la distribución normal serán mayo- 
res que el límite de tolerancia inferior I - ks, o menores que el límite de tolerancia 
superior .v + »A.v. 



294 Estimación puntual y por intervalo 

Ejemplo 8.15 En un medio muy competitivo, la disponibilidad de un producto con 
respecto a la demanda es crucial para el éxito del negocio. Para determinar un limite 
de tolerancia superior para la demanda mensual de cierto producto, un centro co- 
mercial na recolectado lo que cree que es una muestra aleatoria dé las demandas 
mensuales y la cual consiste en los siguientes datos: 129, 142, 14S, 1S3, 136, 138, 
163, 151, 146, 128, 133, 148, 144, 140, 143. Si la demanda mensual de este producto 
se encuentra aproximada en forma adecuada por una distribución normal, determí- 
nese un límite de tolerancia superior con y = 0.99 y d = 0.95. 

Para y = 0.99, d = 0.95 y n = 15, se obtiene de la tabla I del apéndice un va- 
lor de k = 3.102. Con base en los datos, la media y la desviación estándar muestra! 
tienen un valor de x = 142.6 y s = 9.2798, respectivamente. El límite de tolerancia 
superior es 142.6 + (3.102)(9.2798) = 171.39. De esta forma, se tiene el 99% de 
confiabilidad, porque el 95% de toda la demanda será menor que 171.39 unidades 
por mes. En otras palabras, si este centro comercial almacena aproximadamente 172 
unidades del producto por mes, tendrá una alta seguridad de satisfacer la demanda 
mensual de este producto. 

De nuevo, debe hacerse énfasis en que los límites estadísticos de tolerancia de- 
sarrollados en esta sección se relacionan con el muestreo de una distribución normal. 
Si existe alguna duda con respecto a esta hipótesis, deberán utilizarse los límites de 
tolerancia independientes de la distribución que se estudiaron en la sección 8.6.1. Es 
razonable esperar que los límites de tolerancia independientes de la distribución sean 
más conservadores que aquéllos basados en la distribución normal, ya que se en- 
cuentra disponible una cantidad menor de información. 



Referencias 

1. K. V. Bury, Statistical models in applied science, Wiley, New York, 1975. 

2. R. V. Hogg and A. T. Craig, Introduction to mathematical statistics, 4th ed., MacMillan, 
New York, 1978. 

3. A. M. Mood and F. A. Graybill, Introduction to the theory of statistics, 2nd ed., 
McGraw-Hill, New York, 1963. 

4. C. R. Rao, Advanced statistical methods in biometric research, Wiley, New York, 
1952. 

5. S. S. Wilks, Mathematical statistics, Wiley, New York, 1962. 

6. R. L. Winkler, An introduction to Bayesian inference and decisión, Holt, Rinehart 
and Winston, New York, 1972. 



Ejercicios 

8.1. En un experimento binomial se observan x éxitos en n ensayos independientes. Se pro- 
ponen las siguientes dos estadísticas como estimadores del parámetro de proporción p: 
7, = X/n yT 2 = (X+ l)/(n + 2). 

a) Obtener y comparar los errores cuadráticos medios para T t y T 2 . 

b) Hacer una gráfica del ECM de cada estadística como funciones dep para n = 10 y 
n = 25. ¿Es alguno de estos estimadores uniformemente mejor que el otro? 



?;. 



Ejercicios 295 



8.2. Sea X¡ , X 2 , Xy, y X 4 una muestra aleatoria de tamaño cuatro de una población cuya 
distribución es exponencial con parámetro desconocido. Délas siguientes estadísticas, 

:f»llál*»c cnn pctimarlnrpc incMoa/ir\e H^ A9 



¿cuáles son estimadores insesgados de 0? 






7i = <*,- + 2* 2 + 3% + 4* 4 )/5 
7 3 = (A-, + * 2 + X) + X 4 )/4 . 



8.3. Demostrar que la estadística T v en el ejercicio 8.1, es un estimador consistente del pa- 
rámetro binomial p. 

8.4. Mediante el uso del teorema de Tchebysheff, demostrar que la estadística T T en el ejer- 
cicio 8.1, es un estimador consistente del parámetro binomial p. 

8.5. De entre los estimadores insesgados de dados en el ejercicio 8.2, determinar cuál es el 
que tiene la varianza más pequeña. ¿Cuáles son las eficiencias relativas de los demás es- 
timadores insesgados con respecto al que tiene la varianza más pequeña? 

8.6. Sea X r X v X v X¿ y X 5 una muestra aleatoria de una población cuya distribución es 
normal con media fi y varianza cr 2 . Considérense las estadísticas T, = (X, + X 2 + ■•■ 
+ X 5 )/5 y T z = (X, + X 2 + 2X¡ + X t + AT 5 )/6 como estimadores de fi. Identificar 
la estadística que posee la varianza más pequeña. 

8.7. Mediante el uso de la cota inferior de Cramér-Rao determinar la varianza del estimador 
insesgado de varianza mínima de cuando se muestrea una población cuya distribución 
es exponencial con una densidad f(x; ff) - (l/0)exp(-x/0), x > 0. Deducir que el 
estimador eficiente de es la media mués tr al. 

8.8. Sea X t , X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es gama 
con parámetro de forma conocido. Demostrar que el estimador de máxima verosimili- 
tud para el parámetro de escala está dado por la expresión (8.8). 

8.9. Sea X,, X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es de 
Poisson con parámetro X. Obtener el estimador de máxima verosimilitud de X. 

8. 10. Sea X¡ , X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es expo- 
nencial con parámetro de escala 0. Obtener el estimador de máxima verosimilitud de 
y demostrar que éste es una estadística suficiente para 0. 

8. 1 1 . Sea X, , X 2 , . - . , X„ una muestra aleatoria de una población cuya distribución es la de 
Rayleigh, con densidad j\x\ cr) = 0r/cr)exp(-x 2 /2o- 2 ), x > 0. Obtener el estimador 
de máxima verosimilitud de cr 2 . ¿Es ésta una estadística para cr? 

8.12. De manera equivalente a la definición 8.7, se define el r-ésimo momento muestral con 
respecto a la media, como 

n 

2 (X, - XY 

M r = - , 

n 

en donde X u X 2 , ..., X„ es una muestra aleatoria. Empléense estos momentos para 
calcular los factores de forma muéstrales para los datos dados en el ejercicio 1.1. 



296 Estimación puntual y por intervalo 

MR- 

¿Puede formularse cualquier inferencia con respecto a la población de interés con base jf 

en los factores de forma? i M: 

8.13. Repetir el ejercicio 8.12 usando los datos proporcionados en el ejercicio 1.2. S 

8.14. La tabla 8.5 es una distribución de frecuencias para accidentes automovilísticos recaba- w 
da para un estudio en California.* Asumiendo que el número de accidentes es una va- & 
riable aleatoria binomialnegativa, úsese el método de momentos para estimar los para- ^' 
metros binomiales negativos k y p. Comparar las frecuencias que se observaron con ? 
aquéllas que se obtienen mediante el empleo de los valores estimadores de A: y de p. 

8.15. Los siguientes datos son una muestra aleatoria de duración en horas, que se observaron 
para un determinado componente eléctrico: 142.84, 97.04, 32.46, 69.14, 85.67, 114.43, 
41.76, 163.07, 108.22, 63.28. Supóngase que la duración de un componente es una 
variable aleatoria de Weibull con parámetro de forma a = 2. 

a) Obtener un estimador de máxima verosimilitud para el parámetro de escala 6. 

b) El método de momentos, ¿daría jn timador de diferente al que se obtuvo en la 
partea? 

c) Mediante el uso de su respuesta al inciso a, estimar la confiabilidad de este compo- 
nente para/ = 150 horas. 

8.16. Mediante el uso de su respuesta al inciso a del ejercicio 8.15, obtener el tiempo para el 
cual la conñabüidad del componente es de 0.95. 

8. 17. Los siguientes datos son tiempos de falla, ordenados en horas de diez componentes que 
fallarán de un total de 40 en una prueba de duración: 421, 436, 448, 474, 496, 499. 510, 
525, 593, 675. Supóngase que el tiempo de falla es una variable aleatoria exponencial- 
mente distribuida. 

a) Obtener un estimador de máxima verosimilitud para el parámetro 6. 

b) Úsese la respuesta de la parte a para estimar la confiabilidad de este componente 
para / = 4 000 horas. 

8.18. Una prueba de duración será terminada cuando fallen m < n unidades. Si el tiempo de 
falla es una variable aleatoria de Weibull con parámetro de forma conocido, obtener el 
estimador de máxima verosimilitud para el parámetro de escala d. 

*Mullivaríate analysis ofdríver accident frequenctes over a period of 14 years. California Department 
of Motor Vehicles, FHWA Project No. B0I49, 1975. 

TABLA 8.5 



Número de accidentes Número de conductores 

35,1)68 

1 13.411 

2 4.013 

3 1,184 

4 353 

5 93 

6 29 

7 8 

8 4 

9 o más 2 



Ejercicios 297 

8.19. Se desea obtener un indicador del éxito financiero de ciertas tiendas que venden artícu- 
los especiales en los centros comerciales de una gran ciudad. Se selecciona una muestra 
aleatoria de 30 tiendas ubicadas en distintos centros comerciales y en donde el interés re- 
cae en el tiempo que éstas permanecen en operación. Se tendrá un dato significativo 
cuando se observen las primeras ocho tiendas que dejen de funcionar. Los siguientes da- 
tos son el tiempo en orden ascendente, de operación en meses: 3.2, 3.9, 5.9, 6.5, 16.5, 
20.3; 40.4, 50.9. Supóngase que el tiempo en el que permanece operando una tienda de 
esta clase es una variable aleatoria de Weibull con a = 0.8. 

a) Usando el resultado del ejercicio 8. 18, obtener el estimador de máxima verosimilitud 
para 0. 

b) Con base en la respuesta del inciso a, ¿cuál es la probabilidad de que una tienda per- 
manezca en operación después de haber transcurrido dos años de su apertura? ¿Des- 
pués de diez años? 

8.20. El tiempo total de procesamiento para programas en tarjetas perforadas de computado- 
ra se define como el tiempo que transcurre desde que se lee la primera tarjeta hasta que 
se imprime la última linea, y está constituido por tres componentes; el tiempo ¿' espera 
de entrada, el tiempo utilizado por el procesador central y el tiempo de espera de salida. 
Los siguientes datos son los tiempos totales de procesamiento, en minutos, para una 
muestra aleatoria de 15 programas similares: 12.5, 5.2, 6.8, 3.6, 10.9, 12.8, 7.8, 8.6, 6.3, 
6.9, 18.2, 15.4, 9.2, 10.3, 7.3. Supóngase que el tiempo total de procesamiento está mo- 
delado, en forma adecuada, por una distribución gama con a = 3. 

a) Obtener el estimador de máxima verosimilitud para el parámetro de escala 6. 

b) El método de momentos, ¿daria un estimado diferente de 6 al determinado en el in- 
ciso al 

c) Mediante la respuesta del inciso a), calcular la probabilidad de que el tiempo de pro- 
cesamiento sea mayor a 20 minutos. 

8.21. Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de una ¡ \ 
fibra. Diseña un experimento en el que se observan las tensiones de ruptura, en libras, 
de 16 hilos del proceso seleccionados aleatoriamente. Las tensiones son 20.8, 20.6, 21.0, 
20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 20.3 y 20.7. Supóngase 
que la tensión de ruptura de una fibra se encuentra modelada por una distribución nor- 
mal con desviación estándar de 0.45 übras. Construir un intervalo de confianza estima- 
do del 98% para el valor real de la tensión de ruptura promedio de la fibra. 

8.22. Con referencia al ejercicio 8.21, ¿cuáles de las siguientes proposiciones son apropiadas 
papra la interpretación del intervalo de confianza? 

a) En la probabilidad de que la tensión promedio verdadera se encuentre, los límites de 
confianza son de 0.98. 

b) Aproximadamente el 98%, de todos los intervalos de confianza calculados con base 
en repetidas muestras de tamaño, 16 obtenidas en el proceso de fabricación de las 
fibras incluirán el verdadero valor promedio de la tensión de ruptura. 

c) La probabilidad de que la tensión de ruptura para cualquier fibra se encuentre fuera 
de los límites de confianza es 0.02. 

8.23. Mediante el empleo de los métodos de la sección 5.9, genere 100 muestras, cada una de 
tamaño 16, de una distribución normal con media 100 y desviación estándar 10. Para 
cada muestra, construyase un intervalo de confianza del 95% para m- ¿Cuántos de estos 
intervalos contienen el verdadero valor de 100 paraM-' Véase el ejercicio 8.36. 



298 Estimación puntual y por intervalo 

8.24. Una tienda de donas se interesa en estimar su volumen de ventas diarias. Supóngase que 
el valor de la desviación estándar es de $50. 

a) Si el volumen de ventas se encuentra aproximado por una distribución normal, ¿cuál 
debe ser el tamaño de la muestra para que con una probabilidad de 0.95 la me- 
dia muestral se encuentre a no más de $20 del verdadero volumen de ventas prome- 

,\ .dio? . . > : 

b) Si no es posible suponer que la distribución es normal, obtener el tamaño necesario 
de la muestra para la pregunta a. 



8.25. Con referencia al ejercicio 8.24, generar 100 muestras, cada una de tamaño igual al de- 
terminado en el inciso a, de una distribución normal con media y desviación estándar 
iguales a 400 y 50, respectivamente. Calcular la media muestral para cada muestra. 
¿Cuántas medias muéstrales se encuentran a no más de $20 del valor conocido de /¿? 
¿Está su respuesta de acuerdo con lo que se esperaba? 

8.26. Se piensa que la diferencia entre el sueldo más bajo y el más alto que se paga por hora a 
los mecánicos de automóviles es de $9. Si se supone que estos sueldos se encuentran, en 
forma aproximada, distribuidos según un modelo normal, ¿cuál debe ser el tamaño de 
la muestra para que con una probabilidad de 0.99 la media muestral se encuentre a no 
más de un dólar del verdadero salario por hora promedio? Contéstese la misma pregun- 
ta sin suponer una distribución normal. 

8.27. La Cámara de Comercio de una ciudad se encuentra interesada en estimar la cantidad 
promedio de dinero que gasta la gente que asiste a convenciones, calculando comidas, 
alojamiento y entretenimiento por día. De las distintas convenciones que se llevan a 
cabo en la ciudad, se seleccionaron 60 personas y se les preguntó la cantidad que gasta- 
ban por día. Se obtuvo la siguiente información en dólares: 150, 175, 163, 148, 142, 189, 
135, 174, 168, 152, 158, 184, 134, 146, 155, 163. Si se supone que la cantidad de dinero 
gastada en un día es una variable aleatoria distribuida normal, obtener los intervalos de 
confianza estimados del 90, 95 y 98% para la cantidad promedio real. 

8.28. Con referencia al ejercicio 8.21, determinar el intervalo de confianza estimado del 98% 
para la tensión de ruptura promedio sin suponer que se conoce la desviación estándar de 
la población. ¿Cómo es este intervalo comparado con el que se obtuvo en el ejercicio 
8.21? 

8.29. Para verificar la sensititividad de la distribución t de Student con respecto a la suposi- 
ción de que se muestrea una distribución normal, generar 100 muestras aleatorias cada 
una de tamaño 10 de una distribución exponencial con = 20. Para cada muestra, 
construir un intervalo de confianza estimado del 95% para la media. ¿Cuántos de estos 
intervalos contienen el valor medio conocido de = 20? Repetir el proceso incremen- 
tando el tamaño de la muestra a 30. ¿Existe alguna diferencia? Formular un comentario 
con respecto a sus resultados. Véase el ejercicio 8.37. 

8.30. Una muestra aleatoria de los salarios por hora para nueve mecánicos de automóviles 
proporcionó los siguientes datos (en dólares): 10.5, 11,9.5, 12, 10, 11.5, 13,9,8.5. Bajo 
la suposición de que el muestreo se llevó a cabo sobre una población distribuida normal, 
construir los intervalos de confianza estimados del 90, 95 y 99% para los salarios por 
hora promedio para todos los mecánicos. Interpretar los resultados. 

8.31. Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir a 
sus alumnos a principios de cada semestre. Las dos desean comparar el tiempo prome- 



Ejercicios 299 

dio que les toma a los estudiantes completar el trámite de inscripción. En cada universi- 
dad se anotaron los tiempos de inscripción para 100 alumnos seleccionados al azar. Las 
medias y las desviaciones estándares muéstrales son las siguientes: 

•-■■• ^^ ■■■■»■•"■-><>,! Vjf, = 50.2 ■■- xi= 52.9 

X s, = 4.8 s 2 = 5.4 

Si se supone que el muestreo se Uevó a cabo sobre dos poblaciones distribuidas normales 
e independientes, obtener los intervalos de confianza estimados del 90, 95 y 99% para la 
diferencia entre las medias del tiempo de inscripción para las dos universidades. Con 
base en esta evidencia, ¿se estaría inclinando a concluir que existe una diferencia real 
entre los tiempos medios para cada universidad? 

8.32. Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un 
nuevo proceso en el que se añade una aleación a la producción del metal. Los fabrican- 
tes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de 
ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 
12 especímenes y cada uno de éstos se somete a una tensión hasta que se rompe. La si- 
guiente tabla muestra las tensiones de ruptura de los especímenes en kilogramos por 
centímetro cuadrado: 



Proceso 
estándar 


428 


419 


458 


439 


441 


456 


463 


429 


438 


445 


441 


463 


Proceso 
nuevo 


462 


. 448 


435 


465 


429 


472 


453 


459 


427 


468 


452 


447 



f I Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e inde- 

pendientes con varianzas iguales, obtener los intervalos de confianza estimados del 90, 
95 y 99% para ¿¿5 _ Mw • Con base en los resultados, ¿se estaría inclinado a concluir 
que existe una diferencia real entre Ms y M/v? 

8.33. En dos ciudades se llevó a cabo una encuesta sobre el costo de la vida para obtener el 
gasto promedio en alimentación en familias constituidas por cuatro personas. De cada 
ciudad se seleccionó aleatoriamente una muestra de 20 familias y se observaron sus gas- 
tos semanales en alimentación. Las medias y las desviaciones estándares muéstrales 
fueron las siguientes: 

x, = 135 X, = 122 

i, = 15 s 2 = 10 

Si se supone que se muestrearon dos poblaciones independientes con distribución nor- 
mal cada una, y varianzas iguales, obtener los intervalos de confianza estimados del 95 
y 99% para m p - M: • ¿Se estaría inclinado a concluir que existe una diferencia real entre 
Mi y M:? 

8.34. Se espera tener una cierta variación aleatoria nominal en el espesor de las láminas de 
plástico que una máquina produce. Para determinar cuándo la variación en el espesor se 
encuentra dentro de ciertos límites, cada día se seleccionan en forma aleatoria 12 lami- 
nas de plástico y se mide en milímetros su espesor. Los datos que se obtuvieron son los 
siguientes: 12.6, 11.9, 12.3, 12.8, 11.8, 11.7, 12.4, 12.1, 12.3, 12.0, 12.5, 12.9. Si se su- 
pone que el espesor es una variable aleatoria distribuida normal, obtener los intervalos 



al' 



300 Estimación puntual y por intervalo 

de confianza estimados del 90, 95 y 99% para la varianza desconocida del espesor. Si no 
es aceptable una varianza mayor de 0.9 mm, ¿existe alguna razón para preocuparse con 
base en esta evidencia? ■•■, : t , ,, r 

8.35. Mediante el uso de los datos del ejercicio 8.27, obtener un intervalo de confianza esti- 
mado del 95% para la varianza desconocida e interpretar el resultado. 

8.36. Con referencia al ejercicio 8.23, construir para cada muestra un intervalo de confianza 
del 95% para o- 2 . ¿Cuántos de estos intervalos contienen el valor conocido de 100 para 
o- 2 ?¿Este resultado está de acuerdo con lo que se esperaba? 

8.37. Para verificar la sensitividad de la distribución chi-cuadrada con respecto a la supo; ;^I 
ción de que se muestrea una distribución normal, repetir el ejercicio 8.29 construyendo 
para cada muestra un intervalo de confianza estimado del 95% para cr 1 . En relación con 
los dos tamaños de las muestras, ¿cuántos de estos intervalos contienen el valor conoci- 
do de o- 2 = 400? Con base en estos resultados, comparar las sensitividades de las distri- 
buciones / de Student y chi-cuadrada con respecto a la hipótesis de un muestreo que se 
lleva a cabo sobre una distribución normal. 

8.38. Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la cria de 
peces con fines comerciales. Esta agencia se encuentra interesada en comparar la va- 
riación de cierta sustancia tóxica en dos estuarios cuyas aguas se encuentran contamina- 
das por desperdicios industriales provenientes de una zona industrial cercana. En el pri- 
mer estuario se seleccionan 1 1 muestras y en el segundo 8, las cuales se enviaron a un 
laboratorio para su análisis. Las mediciones en ppm que se observaron en cada muestra 
se exponen en la tabla 8.6. Si se supone que el muestreo se hizo sobre dos poblaciones 
independientes distribuidas normales, obtener un intervalo de confianza estimado del 
95% para el cociente de las dos varianzas no conocidas o-\/o\. Con base en este resulta- ¿¡j 
do, ¿se podría concluir que las dos varianzas son diferentes? ¿Por qué? 

8.39. Con referencia al ejercicio 8.32, construir un intervalo de confianza estimado del 99% 
para el cociente <r\/a\ , en donde a] es la varianza del proceso estándar y a\ es la va- 
rianza del nuevo proceso. Con base en este resultado, ¿es razonable la suposición de que 
las varianzas son iguales? 

8.40. La lista electoral final en una elección reciente para senador, reveló que 1 400 personas 



TABLA 8.6 Niveles de una sustancia tóxica 
(ppm) 



Estuario 1 


Estuario 2 


10 


11 


10 


8 


12 


9 


13 


7 


9 


10 


8 


8 


12 


8 


12 


10 


10 




14 




8 





l 



Ejercicios 301 

' de un total de 2 500 seleccionadas aleatoriamente, tienen preferencia por el candidato A 
con respecto al candidato B. 

a) Obtener un intervalo de confianza unilateral inferior del 99% para la verdadera pro- 
porción de votantes a favor del candidato Á. Coli'base en este resultado,' ¿podría us- 
ted afirmar que es probable que A gane la elección? ¿Por qué? 

b) Supóngase que se selecciona aleatoriamente una muestra de 223 personas con la mis- 
ma proporción muestral a favor del candidato A. ¿Son los resultados diferentes a los 
del inciso a)? 

c) En este caso, ¿son razonables las suposiciones para los intervalos de confianza apro- 
ximados del 99%? 

8.41 . Se recibe un lote muy grande de artículos proveniente de un fabricante que asegura que 
el porcentaje de artículos defectuosos en la producción es del 1%. Al seleccionar una 
muestra aleatoria de 200 artículos y después de inspeccionarlos, se descubren 8 defec- 
tuosos. Obtener los intervalos de confianza aproximados del 90, 95 y 99% para la verda- 
dera proporción de artículos defectuosos en el proceso de manufactura del fabricante. 
Con base en estos resultados, ¿qu' se puede concluir con respecto a la afirmación del 
fabricante? 

8.42. Un médico investigador desea estimar la proporción de hombres, en edad madura, que 
fuman en exceso y que desarrollarán cáncer pulmonar en los siguientes cinco años. El 
investigador desea seleccionar una cierta cantidad de hombres que hayan fumado por lo 
menos dos cajetillas de cigarros al día durante 20 años y observarlos durante los próxi- 
mos cinco años para saber cuántos desarrollan cáncer pulmonar. ¿Cuál debe ser el ta- 
maño de la muestra que el investigador debe seleccionar de manera tal que con una pro- 
babilidad de 0.95, la proporción muestral se encuentre a no más de 0.02 unidades de la 
proporción verdadera? 

8.43. Las compañías de auditoría generalmente seleccionan una muestra aleatoria de los clien- i | j 
tes de un banco y verifican los balances contables reportados por el banco. Si una ! 
compañía de este tipo se encuentra interesada en estimar la proporción de cuentas para 
las cuales existe una discrepancia entre el cliente y el banco, ¿cuántas cuentas deberán 
seleccionarse de manera tal que con una confiabilidad del 99% la proporción muestral 
se encuentre a no más de 0.02 unidades de la proporción real? 

8.44. El volumen semanal de ventas de una tienda de descuentos se encuentra representado, 
en forma adecuada, por una distribución normal con media desconocida ¡i, pero con 
una desviación estándar de o- = $2 000. Debido a muchas influencias de índole menor, 
se cree que el volumen de ventas semanal promedio puede considerarse como una va- 
riable aleatoria. Supóngase que se está pensando asignar una distribución normal a la 
media semanal con /jl„ = $20 000 y a-„ = $200. Una muestra aleatoria de 16 semanas 
revela un volumen de ventas promedio muestral de $21 500. 

a) Para una función de pérdida de error cuadrático, obtener el estimador Bayes de m- 

b) Obtener un intervalo estimado de probabilidad bayesiano del 95% para m 

c) Obtener un intervalo de confianza del 95% para ¡i y compararlo con el intervalo esti- 
mado en el inciso b). 

d) Repetir los incisos a, b y c con cr = 100. Comentar los resultados. 

e) Repetir Iqs incisos a, b y c con o» = 800. Comentar los resultados. 

f) Supóngase que n = 64; asumiendo que x = 21 500, ¿de qué forma afectarían los 
cambios anteriores las respuestas dadas para los incisos a, by el 






m 



302 Estimación puntual y por intervalo 

8.45. Una oficina estatal determinó que el número de llamadas telefónicas que recibe es una 
variable aleatoria de Poisson. Debido a las condiciones del mercado, la oficina ha lle- 
gado a la conclusión de que el parámetro de Poisson es una variable aleatoria con distri- 
bución gama y parámetros de forma y escala iguales a 20y 4/ respectivamente. En un 
día, seleccionado al azar, se reciben 90 llamadas telefónicas. " ' ' ' ! " 

■ a) Para una función de pérdida de error cuadrático, obtener el estimador Bayes del pa- 
rámetro de Poisson. 
b) Obtener un intervalo de probabilidad bayesiano del 95%. (Sugerencia: empléese 
(5.51).) 

8.46. Una compañía constructora de hoteles se encuentra muy interesada en las tensiones.de 
ruptura de los cables de acero que sostendrán un pasillo por encima del vestíbulo del ho- 
tel. El contratista hace uso de los servicios de una organización independiente a la cual 
da las instrucciones necesarias para probar los cables y determinar un limite de toleran- 
cia inferior para la tensión de ruptura de éstos de manera tal que, con una probabilidad 
de 0.95, el 99% de los cables tenga una tensión de ruptura uiayor al limite deseado. La 
organización selecciona, en forma aleatoria, 20 cables y los prueba para determinar sus 
tensiones de ruptura. Los resultados de la prueba, en kilogramos por centímetro 
cuadrado, son 2130, 2158, 2192, 2110, 2145, 2208, 2201, 2195, 2125, 2148, 2166, 2172, 
2192, 2138, 2210, 2215, 2108, 2105, 2120 y 2130. Si se supone que la tensión de ruptura 
es una variable aleatoria distribuida normal, obtener el limite de tolerancia deseado. 

8.47. El diámetro interno de un cojinete es una medida crucial en la fabricación dé éste. Con 
base en una muestra aleatoria de 25' cojinetes, la media muestra] fue de 3 cm y la des- 
viación estándar muestra! fue igual a 0.005 cm. Obtener los limites de tolerancia bilate- 
rales de manera tal que, con una probabilidad de 0.99, el 95% de los diámetros de todos 
los cojinetes manufacturados por este proceso se encuentren dentro de los limites de tole- 
rancia. Supóngase que el diámetro interno es una variable aleatoria distribuida normal. 

8.48. Supóngase que en el ejercicio 8.47 no es posible asumir una distribución normal. Si de 
los 25 cojinetes, el diámetro más pequeño fue de 2.984 y el más grande de 3.013 y se está 
interesado en un intervalo que contenga al 90, 95 o 99% de todos los diámetros internos, 
¿cuál es la probabilidad que puede asociarse con el intervalo de 2.984 al 3.013 para cada 
uno de los porcentajes anteriores? 

8.49. Supóngase que no es posible asumir una distribución normal en el ejercicio 8.46. Para la 
misma probabilidad y tamaño muestral, ¿cuál debe ser la proporción de tensiones de 
ruptura que debe exceder el valor más pequeño de las 20 observaciones? ¿Qué tan gran- 
de debe ser la muestra necesaria en este caso para tener la misma probabilidad y propor- 
ción del ejercicio 8.46? 

8.50. Supóngase que se está muestreando una población cuya distribución de probabilidad es 
desconocida. ¿Cuál debe ser el tamaño de la muestra necesario para que, con una pro- 
babilidad de 0.99, por lo menos el 95% de los valores de la variable aleatoria de interés 
esté incluido entre los dos valores extremos de la muestra? 

8.51. Supóngase que se está muestreando una población cuya distribución de probabilidad es 
desconocida. ¿Cuál debe ser el tamaño de la muestra necesario para que, con una pro- 
babilidad de 0.99, por lo menos el 97% de los valores de la variable aleatoria sea mayor 
que el valor más pequeño de la muestra? 



>ür r .-■*' 



CAPITULO NUEVE 



■ xt'Ht: 



Prueba de hipótesis estadísticas 



9.1 Introducción 

En el capítulo 8 se examinó la inferencia estadística con respecto a la estimación 
puntual y por intervalo. En este capítulo se estudiará otra área de la inferencia: la 
prueba o contraste de una hipótesis estadística. Como se verá, la prueba de una hi- 
pótesis estadística tiene una fuerte relación con el concepto de estimación. 

Una hipótesis estadística es una afirmación con respecto a alguna característica 
desconocida de una población de interés. La esencia de probar una hipótesis estadís- 
tica es el decidir si la afirmación se encuentra apoyada por la evidencia experimental 
que se obtiene a través de una muestra aleatoria. En forma general, la afirmación in- 
volucra ya sea a algún parámetro o a alguna forma funcional no conocida de la 
distribución de interés a partir de la cual se obtiene una muestra aleatoria. La deci- 
sión acerca de si los datos muéstrales apoyan estadísticamente la afirmación se toma 
con base en la probabilidad, y, si ésta es mínima, entonces será rechazada. 

En gran medida, el enfoque de este capítulo será más intuitivo que teórico ya 
que el autor piensa que desde este punto de vista el lector estará en posición de obte- 
ner una mejor idea de la esencia de las hipótesis estadísticas. En forma inicial se de- 
sarrollarán los fundamentos para la prueba de hipótesis estadísticas. Entonces se 
examinarán varias áreas de aplicación con respecto a medidas, varianzas y propor- 
ciones. 



9.2 Conceptos básicos para la prueba de hipótesis estadísticas 

Para ilustrar la noción de una hipótesis estadística, supóngase que se tiene interés en 
el tiempo promedio necesario para terminar una unidad en una línea de armado. 
Bajo condiciones de operación estándares, el objetivo es tener un tiempo promedio 
de armado por unidad de 10 minutos. El gerente de la planta decide continuar con el 
proceso a menos que se encuentre una evidencia sustancial de que el tiempo prome- 
dio no es de 10 minutos. La evidencia estará en una muestra aleatoria de tamaño n 
obtenida de la distribución de interés para el tiempo de armado de una unidad. 
¿Cómo debe decidirse si el proceso continúa en operación?- 



304 Prueba de hipótesis estadísticas 

La respuesta a este tipo de preguntas es el principal objetivo del presente 
capítulo. Nótese que no es de interés, per se, la estimación del tiempo medio desco- 
nocido fi, sino determinar si el valor de /tes 10. En otras palabras, antes de que la 
muestra se obtenga, ya se ha conjeturado que el muestreo se llevará a cabo sobre una 
distribución cuya media es 10. Si la afirmación es estadísticamente plausible con 
base en la evidencia experimental, entonces se asumirá que el valor promedio objetivo 
es de 10 minutos y, por lo tanto, se dejará que el proceso continúe. Por otro lado, si 
la afirmación no está apoyada estadísticamente por la evidencia muestral, el gerente 
de la planta puede decidir detener el proceso para llevar a cabo los ajustes necesarios. 

A la afirmación de que fi = 10 se le llama hipótesis nula y se escribirá como: 

H : M = 10. 

Nótese que con H se ha especificado un solo valor para el parámetro en cuestión. 
De hecho, si una hipótesis estadística asigna valores particulares a todos los pará- 
metros desconocidos e identifica la forma funcional de la distribución de interés, 
recibe el nombre de hipótesis sencilla o simple. De otra forma, se conoce como 
hipótesis compuesta. De esta manera, H : ¡i = 1 u es una hipótesis sencilla sólo si se 
especificaron la forma funcional de la distribución de interés y los valores de los pa- 
rámetros desconocidos (si es que los hay). Si la hipótesis nula se hubiese propuesto 
como H : ¡í =s 10 o H Q : /j. > 10, ésta no sería una hipótesis simple ya que no asig- 
na ningún valor específico para /a. 

Una hipótesis nula debe considerse como verdadera a menos que exista suficiente 
evidencia en contra. En otras palabras, se rechazará la hipótesis nula de que el tiem- 
po promedio de armado es de 10 minutos, sólo si la evidencia experimental se en- 
cuentra muy en contra de esta afirmación. Un paralelo muy cercano a esta interpre- 
tación es el de los procesos judiciales en los que el acusado es inocente hasta que no 
se demuestre lo contrario. Esto es, definiendo a la hipótesis nula como "inocen- 
te", se insiste en que se rechazará sólo si el juicio proporciona evidencia suficiente en 
contra de ésta. 

A continuación se analizan las posibles decisiones que pueden tomarse con res- 
pecto a lá hipótesis nula H : /¿ = 10. Al hacer esto deben tomarse en cuenta las con- 
secuencias que pueden originarse como resultado del verdadero estado de la natura- 
leza: en realidad n, puede o no ser igual a 10. En forma sencilla, existen dos posibles 
decisiones con respecto a H (rechazar // O o equivocarse al rechazar //„>.* Sin em- 
bargo, cada una de estas decisiones tiene las siguientes dos consecuencias con respec- 
to al estado de la naturaleza: 



Rechazar H Q 



cuando de hecho Hq es cierta Equivocarse (cuando de hecho H es cierta 

al rechazar H ) 
cuando de hecho H es falsa | cuando de hecho H es falsa 



Si la decisión es el rechazar a H , entonces puede que se rechace algo que 
es cierto (decisión incorrecta) o que se rechace algo que en realidad es falso (decisión 

* La razón de por qué se ha usado la frase "equivocarse al rechazar H„" más que "aceptar H„" será 
.-vidente más adelante. 



9.2 Conceptos básicos para la prueba de hipótesis estadísticas 3U5 

correcta). Si no se puede rechazar H Q , entonces no puede rechazarse algo que es cier- 
to (decisión correcta), o no puede rechazarse algo que en realidad es falso (decisión 
incorrecta). Por lo tanto, si la decisión es rechazar o equivocarse al rechazar H a , 
existen dos posibilidades de tomar' una de^ión equivb^dVcon respectó 'al verdade- 
ro estado de' la naturaleza. : *■■">■■ ^'v^'^w^í»*^-^^ -^fJtflí!' J ''siíi5aí^ '«■•■ -' 

Cuando se toma una decisión con respecto a una hipótesis nula, dos de las po- 
sibles consecuencias relativas al verdadero estado de la naturaleza conducen a erro- 
res inferenciales. El rechazo de la hipótesis H cuando en realidad H Q es cierta, 
constituye lo que se denomina error de tipo I. Equivocarse al rechazar H cuando 
en realidad H es falsa, constituye lo que se denomina error de tipo II. El lector 
debe notar que sólo es posible el error de tipo I cuando la decisión es el rechazar la 
hipótesis nula, mientras que el error de tipo II sólo es posible cuando la decisión es el 
no rechazar H . En otras palabras, si la hipótesis nula realmente es cierta, sólo 
puede cometerse un error de tipo I; si la hipótesis nula es falsa, sólo puede cometerse 
un error de tipo II. No pueden cometerse ambos errores en forma simultánea. De 
manera obvia, el interés recae en la posiblidad de cometer un tipo, cualquiera, de 
error. Sin embargo, es importante comprender que una decisión con respecto a una 
hipótesis estadística es un proceso inferencial, el cual siempre se encuentra sujeto a 
error. La decisión de rechazar H no necesariamente significa que H sea falsa; 
pero la evidencia muestral con base en la cual se toma la decisión proporciona un 
grado de confiabilidad (paralelo al de la estimación de intervalo) con el que puede 
procederse como si H fuese falsa. 

Es necesario tener alguna cantidad que mida la posibilidad de cometer alguno de 
estos errores. Esta medida es una probabilidad. 

Definición 9.1 La probabilidad de rechazar H , dado que H es cierta, se define 
como la probabilidad (o tamaño) del error de tipo I y se denota por a, «s a «s 1. 

Definición 9.2 La probabilidad de no rechazar H , dado que H es falsa, se define 
como la probabilidad (o tamaño) del error de tipo II y se denota por/3, =£ /3 =s 1. 

Por lo tanto, las probabilidades de los errores de tipo I y tipo II están dadas por 
las proposiciones 

/^rechazar // | H es cierta) = a (9.1) 



Pino poder rechazar H 1 H es falsa) = /3. (9.2) 

Nótese que tanto a como /3 son probabilidades condicionales. No pueden obte- 
nerse las probabilidades de los errores de tipo I y tipo II en un sentido absoluto, de- 
bido a que el estado de la naturaleza no es conocido. Más bien, puede calcularse la 
probabilidad a de rechazar H sólo si se asume que H es cierta, o la probabilidad 
de equivocarse el rechazar H , si se asume que H es falsa. 

Cuando una afirmación se incorpora en la proposición de la hipótesis nula, se ne- 
cesita una regla que indique qué decisión tomar con respecto a H una vez que se en- 



306 Prueba de hipótesis estadísticas 



\i¿> 



K 



cuentra disponible la evidencia muestral. Esta regla recibe el nombre de prueba de 
una hipótesis estadística,! , M u -v . ■ ■ 5 \ > - - 

Defínición 9.3 . ; Una pruébate una hipótesis estadística con respecto a alguna ca- 
racterística desconocida de la población de interés es cualquier regla para decidir si 
se rechaza la hipótesis nula con; base en una muestra aleatoria de la población. 

La decisión se basa en alguna estadística apropiada la cual recibe el nombre de 
estadística de prueba. Para ciertos valores de la estadística de prueba, la decisión 
será el rechazar la hipótesis nula. Estos valores constituyen lo que se conoce como la 
región crítica de la prueba. Por ejemplo, recuérdese la hipótesis nula H : ¿u. = 10. 
Para un tamaño n dado de la muestra, supóngase que se decide rechazar //„ si se ob- 
serva un valor de la media muestral X que sea más grande que 12. Entonces, X es 
la estadística de prueba, el valor X = 12 es el valor critico, y el conjunto de valores 
mayores que 12 "on c 'ituyen la región crítica de la prueba. 

Para mostrar en forma gráfica la región crítica, supóngase que n es suficiente- 
mente grande de manera tal que la distribución de muestreo de la estadística de 
prueba X, dado que H es cierta, es esencialmente una distribución normal. La fi- 
gura 9.1 muestra la región crítica como el área sombreada a la derecha del valor 
crítico X = 12. El área de la región crítica es igual al tamaño del error de tipo I. En 
otras palabras, P(X > 12|¿u. = 10) = a. La interpretación de a es análoga a la de 
los intervalcrade confianza. Esto es, la probabilidad a es sólo una referencia con respecto 
a la región X > 12 involucrando a la variable aleatoria X, dado que ¿u. = 10. 
Pero la decisión de rechazar H se tomará con base en una sola muestra de tamaño 
n, a partir de la cual se calculará el estimador de x. De esta forma, si jf > 12, 
esto no significa que la probabilidad de que H sea correcta es a; más bien, esto 
implica una interpretación de frecuencia para a cuando se toman muchas muestras. 
En otras palabras, si el valor de// es realmente 10, y si se tomasen en forma repetida 
muestras de tamaño n de la población, debe esperarse que en un 100a% de las veces, 
se encuentre un valor de la estadística de prueban mayor que 12, y de esta forma debe 



Función de densidad de X bajo Hq 




Región critica de 
tamaño a 



FIGURA 9.1 La región critica como un área 



9.2 Conceptos básicos para la prueba de hipótesis estadísticas 30ÍE 

rechazarse la hipótesis nula. Sólo eneste sentido puede decirse que la confiabilidad 
al rechazar H , cuando el estimador „Y > 12 es igual al complemento del error a de tiptí 
1, 0, 1 — a.!, .•:_.(.-. *.,■ ;y;-; ; .-'rrxsy- ;..;.' i./.'i-*;»> ■ .-;'s i ' í 'HoiD¡bí>yq sug 

Para construir una regla de decisión apropiada en la prueba de una hipótesis» 
estadística, también es necesario establecer una hipótesis alternativa que refleje el 
valor posible o intervalo de valores del parámetro de interés si la hipótesis nula es 
falsa. Esto es, la hipótesis alternativa representa alguna forma de negación de la hi- 
pótesis nula. Generalmente la hipótesis alternativa se representa por H, y puede ser 
simple o compuesta. A pesar de que no se pretende una generalización, en muchas 
ocasiones es deseable establecer una hipótesis nula que sea mas específica que la al-, 
ternativa. De esta manera, la hipótesis nula es simple en forma general, mientras que 
la alternativa es una hipótesis compuesta. Por ejemplo, supóngase que el gerente 
de la planta sospecha que el tiempo de armado promedio es mayor de 10 minutos. 
Entonces las hipótesis nula y alternativa apropiadas podrían ser 

H : M = 10, 
/#,: p. > 10. 

La razón de ello es que si la evidencia muestral no apoya el rechazo de la hipótesis 
nula, entonces el gerente de la planta podría proceder como si H fuese cierta. De otra 
manera, la sospecha podría justificarse y entonces puede ser necesario emprender al- 
guna acción para corregir la falla. 

De acuerdo con la definición 9 . 3 , el procedimiento de prueba se construye de ma- 
nera tal que la hipótesis nula sea o no rechazada. En este sentido, se dice que H es 
la hipótesis a ser probada. Sin embargo, con la inclusión de la hipótesis alternativa, 
puede ser más descriptivo decir que probar una hipótesis estadística es proporcionar 
una decisión entre H y H r Por ello debe ejercerse una precaución extrema al es- 
tablecer las hipótesis nula y alternativa. 

Se regresará a la analogía del proceso judicial para proporcionar una idea más 
clara sobre la materia. Si la hipótesis nula es "inocente", entonces, con toda seguri- 
dad, la hipótesis alternativa es "culpable". El rechazo de la hipótesis nula implicaría 
que el juicio ha sido capaz de proporcionar suficiente evidencia para garantizar un 
veredicto de culpable. Por otro lado, si el juicio no presenta evidencia sustancial, el ve- 
redicto será inocente. Esta decisión no implica necesariamente que el acusado sea 
inocente, más bien hace énfasis en la falta de evidencia sustancial necesaria para 
condenar al acusado. Por lo tanto, en cierto sentido un veredicto de culpable (el 
rechazo de H ) debe considerarse como una decisión más fuerte que un veredicto 
de inocente (equivocación al rechazar H ), lo cual surge del principio judicial general- 
mente aceptado de que es peor condenar a una persona inocente que dejar ir a una 
culpable. Si el veredicto es culpable, se desea tener un grado muy alto de seguridad 
de que no se va a condenar a una persona inocente. Por lo tanto, en muchas si- 
tuaciones el error de tipo I se considera como un error mucho más grave que el error 
de tipo II. 

En la prueba de hipótesis estadísticas el enfoque general es aceptar la premisa 
de que el error de tipo I es mucho más serio que el error de tipo II, y formular las hi- 



308 Prueba de hipótesis estadísticas 

pótesis nula y alternativa de acuerdo con lo anterior. Como resultado se tiene que 
muchas veces se selecciona con anticipación el tamaño máximo del error de tipo I 
que puede tolerarse y se intenta construir un procedimiento de prueba que minimice 
el tamaño del error de tipo II. En otras palabras, no es posible fijar tanto a a como a 
(1 y diseñar alguna regla de decisión para probar H contra H t , dada una' muestra 
aleatoria de tamaño n. Espor esta razón que se dice "equivocación al rechazar H " 
más que "aceptar H " cuando la evidencia muestral no apoya el rechazo de la hipó- 
tesis nula. ' 

Un principio sencillo y razonable al obtener reglas de decisión para la prueba de 
hipótesis estadísticas es seleccionar aquel procedimiento de prueba que tenga el ta- 
maño más pequeño para el error de tipo II entre todos los procedimientos que ten- 
gan el mismo tamaño para el error de tipo I. En este contexto debe notarse que el va- 
lor de a no puede hacerse muy pequeño sin que se incremente el valor de j8. En otras 
palabras, para una muestra de tamaño n dado, el tamaño del error de tipo II nor- 
malmente aumentará conforme el tamaño del error de tipo I disminuya. Lo qi>*% en 
forma general, se hace en la práctica, es ajustar el tamaño del error de tipo I cambiando 
el valor crítico de la estadística de prueba para así alcanzar un balance satisfactorio entre 
los tamaños de los dos errores. Sin embargo, cuando se hace esto debe tenerse en mente 
el máximo tamaño del error de tipo I que puede tolerarse en una situación en particular. 
Por ejemplo, recuérdese de nuevo la hipótesis nula //„: /u. = 10 contra la hipótesis 
alternativa //, : fi > 10. Entonces )3 es igual a la probabilidad de equivocarse al 
rechazar H cuando H, es cierta. Al igual que antes, sea X la estadística de prueba. 
La figura 9.2 muestra cómo, mediante el cambio del valor crítico de 12 a 1 1 , el tama- 
ño de error de tipo I disminuye (éste se encuentra por debajo de la curva que está a la 
izquierda en ambos casos), pero crece el tamaño del error de tipo II (éste se muestra 
bajo la curva que se encuentra a la derecha en ambos casos). 

La probabilidad a del error de tipo I también se conoce como el nivel de signifi- 
cancia estadístico. En este contexto la palabra "significancia" sólo implica que la 



/(*) 



f(x\H Q ) f(x\HO 



f(x\H ) Rx\H x ) 



f(x) 




10 11 
a) Valor crítico = 1 1 



10 12 x 

b) Valor crítico = 1 2 



FIGURA 9.2 El efecto sobre a y H al cambiar el valor crítico 



9.2 Conceptos básicos para la prueba de hipótesis estadísticas 309 

evidencia muestral es tal que garantiza el rechazo de H a un nivel dado de a. En 
consecuencia, la frase "El rechazo de //„ es estadísticamente discernible a un nivel 
dado a", es más apropiada. Un ejemplo ilustrará los conceptos anteriores. 

Ejeníplo 9.1 Supóngase que puede tolerarse un tamaño del error de tipo I hasta de 
0.06 cuando se prueba la hipótesis nula 

H : ¡X = 10 

contra la hipótesis alternativa 

Hr.ii> 10 

para el problema del tiempo de armado. Supóngase que la distribución del tiempo 
necesario para armar una unidad es normal con desviación estándar a = 1 .4 minu- 
tos. Se observan los tiempos de armado de 25 unidades seleccionadas aleatoriamente 
y escoge la media muestral X como la estadística de prueba. En particular, se desea 
comparar las siguientes regiones críticas. 



Prueba A 
Prueba B 
Prueba C 



Rechazar H si X > 10.65 
Rechazar //„ si X > 10.45 
Rechazar H si X> 10.25 



para determinar cuál de éstas satisface el tamaño del error de tipo I que puede tole- 
rarse y cuál tiene el valor más pequeño de fi entre las tres. 

Para determinar la probabilidad del error de tipo I, se asumirá que H es cierta y 
se calculará 

P(X > c | ¡jl = 10) = a, 

en donde c es el valor crítico, o frontera de la región crítica. Ya que se asume que el 
muestreo se lleva a cabo sobre una distribución normal, bajo H , X ~ MÍO, 1.4/V25). 
Por lo tanto, para la prueba A 

a = P(X> 10.65 | fi = 10) 

= P[Z >( 10.65 - 10)/0.28 \fi= 10] 
= P(Z > 2.32 | fi = 10) 
= 0.0102. 

De manera similar, para la prueba B 

a = P(X> 10.45 \fi= 10) = P(Z > 1.61 | ¡jl = 10) = 0.0537, 
y para la prueba C 

a = P(X> 10.25 \fi= 10) = P(Z > 0.89 \fi= 10) = 0.1867. 



310 Prueba de hipótesis estadísticas 

Nótese que el tamaño del error de tipo I para la prueba C es mayor al limite impues- 
to de 0.06, mientras que para las pruebas A y B, éste es menor que el limite dado. 
Puesto qufeCno .reúne. los requisitos, no será ya considerada. 
■ Ya que ni la prueba A ni la B han violado el tamaño máximo del error de tipo I, se 
determinará cual de estas dos tiene el tamaño más pequeño para el error de tipo II. 
Recuérdese que la ocurrencia de un error de tipo II implica que H a es falsa. Enton- 
ces, para un tamaño de la muestra y un valor máximo de a dados, el tamaño del 
error del tipo II será, en forma estricta, una función del intervalo de valores del pa- 
rámetro desconocido como se encuentran especificados en la hipótesis alternativa. 
En otra palabras 

j8(M) = P(X^c\(jl> 10). 

En particular, supóngase que el valor real dé fies igual a 10.4. Entonces, para la 
prueba A 

0(10.4) = P(X « 10.65 | ti = 10.4) = P(Z =£ 0.89 ¡ n = 10.4) = 0.8133, 

mientras que para la prueba B 

£(10.4) = P(X =s 10.45 | fi = 10.4) = P(Z =s 0.18 | y = 10.4) = 0.5714. 

De esta forma, si n = 10.4, la probabilidad de que la prueba A se equivoque al 
rechazar la hipótesis nula de que /a = 10 es de 0.8133, y la correspondiente proba- 
bilidad para la prueba B es de 0.5714. Para este valor particular de la hipótesis alter- 
nativa, la prueba B es mejor que la A. 

Al ilustrar el intervalo de valores de las probabilidades ¿8 para estas dos pruebas, 
se continúa el proceso de calcular el tamaño del error de tipo II para otros valores 
representativos. En la tabla 9. 1 se da la información pertinente. Posteriormente se 
ilustrará que para una hipótesis alternativa dada y un tamaño fijo del error de tipo I, 
puede reducirse el tamaño del error de tipo II mediante el incremento del tamaño de 
la muestra. 

■Con base en la información proporcionada en la tabla 9.1 , pueden formularse las 
siguientes observaciones. Conforme el tamaño del error de tipo I disminuye (prueba 
A), el tamaño del error de tipo II aumenta. Si la afirmación propuesta por la hipóte- 
sis nula es falsa pero difiere muy poco del verdadero valor, la opción de no rechazar 
H es alta. Sin embargo, si la hipótesis nula es falsa por una cantidad muy grande, 
la probabilidad de equivocarse al detectar su falsedad es pequeña. De esta forma, al 
comparar las pruebas A y B, si puede tolerarse un tamaño del error de tipo I hasta de 
0.06, entonces la prueba B es mejor que la A debido a que sus probabilidades j8 son, 
de manera uniforme, más pequeñas que las de la prueba A. 

?')'■■)■ O; n?j, :V 

TABLA 9.1 Probabilidades para el error de tipo II para las pruebas A y B 



M 


10.2 


10.4 


10.6 


10.8 


11.0 


11.2 


11.4 


Prueba A 
Prueba B 


0.9463 
0.8133 


0.8133 
0.5714 


0.5714 
0.2946 


0.2946 
0.1056 


0.1056 
0.0250 


0.0250 
0.0037 


0.0037 
0.0003 



y. j i ipos ae regiones criticas y la función, de potenciq 311 

9.3 Tipos de regiones críticas y la función de potencia >y .'■..^4.Mí?./v't 

Con anterioridad se sugirió que es deseable establecer una ,Mpótesis;nüIá~ámplér De 
hecho, también es deseable establecer una hipótesis alternativa simple ya que sólo en este 
caso es posible determinar valores únicos de los tamaños de loa errores'fipb I y 4 tipo IK 
Con el propósito de ilustrar lo anterior, recuérdese el ejemplo 9.1. Supóngase qué para 
éste tambiénse ha formulado la siguiente hipótesis alternativa H,: ¡i = 10.8. En- 
tonces para las pruebas A y B, los tamaños de los errores de tipo I permanecerán en 
0.0102 y 0.0537, respectivamente. Pero en este caso la probabilidad del error de tipo 
II para cualquiera de las pruebas tendrá un solo valor más que un intervalo de valo- 
res, como en el ejemplo 9.1 . Sin embargo, debe notarse que una hipótesis alternativa 
simple puede tener una aplicación real limitada. De acuerdo con lo anterior, se pro- 
cederá bajo la hipótesis de que la hipótesis nula es simple y la alternativa compuesta. 
En este contexto se desean estudiar los tipos de regiones criticas que pueden sur- 
gir. Considérese la hipótesis nula simple. 

H : 9 = ff 

con respecto al parámetro de interés 0, cuando se muestrea una distribución cuya 
función, de densidad de probabilidad es f{x; 9), en donde 9$ es el valor pro- 
puesto de 0. Si la hipótesis alternativa es de la forma. 

H i :9>9 

o 

//i : 9 < 9 , 

Se dice que H, es una hipótesis alternativa unilateral, debido a que los posibles valo- 
res de 6 bajo H L se encuentran a un lado del valor propuesto bajo H . La región 
crítica también recibe el nombre de región de rechazo unilateral debido a que es, 
en forma intuitiva, razonable rechazar H para los valores de una estadística de 
prueba apropiada que, si H fuese cierta, son extremos en la dirección que especifi- 
ca la hipótesis alternativa. Vale la pena notar que la hipótesis alternativa debe for- 
mularse sólo si el valor de uno de los parámetros que se encuentre en el lado opuesto, 
no tiene sentido para el investigador. De otro modo, debe establecerse una hipótesis 
alternativa bilateral. Esto es, si la hipótesis alternativa no proporciona una dirección 
con respecto al valor propuesto de O > entonces se dice que H x es una hipótesis alter- 
nativa bilateral de la forma 

Una hipótesis alternativa bilateral implica la existencia de una región crítica 
bilateral* ya que H ] incluye valores de 9 que se encuentran a ambos lados del valor 
propuesto de 0„ • Para este caso, la decisión se inclina a rechazar la hipótesis nula 
para aquellos valores de la estadística de prueba que, si H fuese cierta, son extre- 
mos en cualquier dirección. 

* En forma general, una región crítica bilateral es simétrica; las dos partes de la región se seleccionan de 
tal manera que el área bajo cada una de las regiones sea igual. 



J12 Prueba de Hipótesis estadísticas ■ - \s \ \ I n / 

TABLA 9.2 Potencias de las' pruebas A y B para el ejemplo 9.1 » 



uiD^ 



p 


10.2 


10.4 • 10.6 


10.8 


11.0; 


^!'- 2 '■;: 


H- 4 


Prueba A 
Prueba B 


0.0537 
0.1867 


0.1867 ^-0.4286: > 
0.4286 , 0.7054 


0.7054 
0.8944 


0.8944 i 
0.9750 \ 


i ^0.9750, 
0.9963 


0.9963 
0.9997 



Si se asume una hipótesis alternativa compuesta, es necesario generalizar los me- 
dios por los cuales se puede evaluar la interpretación de una prueba dada, en forma 
especial cuando se compara ésta con otras pruebas. Como se ilustra en el ejemplo 
9. 1 , el tamaño del error de tipo II varía para los diferentes valores de 9 de la hipóte- 
sis alternativa cuando //, es compuesta. De esta forma el tamaño del error de^igolt) 
se obtiene como una función de los valores alternativos de bajo H t . Debe notarse 
que /8(0) se conoce como la función característica de operación, y cuando se gráfica 
/3(0) para diversos valores de 9 de H\ , se obtiene una curva característica de opera- 
ción (CO). 

Dado que /3(0) es la probabilidad de que un valor de la estadística de prueba no 
se encuentre en la región crítica cuando H es falsa, entonces 1 — ¡3(9) representa la 
probabilidad de que un valor de la estadística de prueba se encuentre dentro de la re- 
gión crítica cuando H es falsa. Esta probabilidad se conoce como la función poten- 
cia de la prueba. En otras palabras, las funciones potencia y características de opera- 
ción son complementarias. 

Definión9.4 La función P{9) = 1 - /3(0) recibe el nombre de función potencia y 
representa la probabilidad de rechazar la hipótesis nula cuando ésta es falsa; es de- 
cir, cuando el valor del parámetro de H x es cierto.* 

En esencia, la potencia de una prueba es la probabilidad de detectar que H es, 
en forma verdadera, falsa; de aquí el uso de la palabra "potencia". Como ilustra- 
ción, recuérdese el ejemplo 9. 1 . Los complementos de las probabilidades de los erro- 
res de tipo II que se encuentran en la tabla 9. 1 son las potencias de las pruebas A y B 
páralos valores indicados de u. cuando se prueba H : ¡x = 10 contra H,: ¡jl > 10. 
Estos valores se encuentran en la tabla 9.2. De esta información, es evidente que la 
prueba B es más poderosa que la prueba A. Pueden granearse las funciones caracte- 
rísticas y de potencia de las pruebas A y B contra los valores de ¿¿, dando las curvas 
características de operación y de potencia que se ilustran en la figura 9.3. 

Recuérdese que para un a fijo y una hipótesis alternativa dada, puede disminuir- 
se el tamaño del error de tipo II si se incrementa el tamaño de la muestra. Por lo tan- 
to, se desprende que la función de potencia aumentará conforme aumenta el tamaño 
de la muestra. Como ilustración, considérense las pruebas A y B del ejemplo 9.1 
para las que el tamaño de la muestra se aumenta hasta un valor de 50. Dado qué 
se insiste que los tamaños del error de tipo I siguen siendo los mismos para las 

* Si H B es cierta, algunos autores definen la potencia para ser igual al tamaño del error de tipo í. 



9.3 Tipos de regiones críticas y la función de potencia 313 




9.6 10.0 10.4 10.8 11.2 14.6 
a) Curva de potencia 




9.6 10.010.4 10.811.2 11.6 
b) Curva CO 



FIGURA 9.3 Comparación de las funciones pqtencia y característica de operación para A y B 

pruebas A y B, sus valores críticos pueden disminuir de valor debido al incremento 
en el tamaño de la muestra. En particular, pra la prueba A 

P(X > c A | p = 10) = 0.0102, 
o 

^£ = 2.32, 
1.4/V50 

c A - 10.46. 

De manera similar, para la prueba B 

P{X>c B \p = 10) = 0.0537, 

y c B = 10.32. La tabla 9.3 contiene información comparable con la de las tablas 9.1 
y 9.2 para n = 50. 

También puede mostrarse la potencia para diferentes valores de p relativos a la 
distribución de muestreo de la estadística X. Considérese, por ejemplo, la prueba B, 



TABLA 9.3 Potencias y probabilidades fi de las pruebas A y B para n = 50 



10.2 



10.4 



10.6 



10.8 



11.0 



11.2 



11.4 



Prueba A 


P(nV 


0.0951 


0.3821 


0.7611 


0.9573 


0.9968 


0.9999 


= 1 




PH¿\ 


0.9049 


0.6179 


0.2389 


0.0427 


0.0032 


0.0001 


= 


Prueba B 


Pin) 


0.2709 


0.6554 


0.9207 


0.9922 


0.9997 


= 1 


= 1 




/3<M) 


0.7291 


0.3446 


0.0793 


0.0078 


0.0003 


= 


= 



314 Prueba de hipótesis estadísticas 




H= 10.05 



Potencia = 0.0869 



10 10.32 




Al = 10.4 



Potencia = 0.6554 



10 10.32 




Al = 10.8 
Potencia = 0.9922 



10.32 



FIGURA 9.4 Probabilidades de rechazo de H para la prueba B (n = 50) 



en la que el valor crítico es c B = 10.32 para n = 50. La figura 9.4 muesra la distri- 
bución de X para distintos valores de /la > 10, en donde el área sombreada es la po- 
tencia o la probabilidad de rechazar H . Nótese que conforme el valor de ft se aleja 
del valor propuesto bajo H , la potencia de la prueba aumenta. 



9.4 Las mejores pruebas 

En la última sección se determinó que la evaluación de la prueba de una hipótesis 
estadística debe hacerse con base en su función de potencia. En esta sección se regre- 
sará al problema igualmente importante de cómo construir una buena prueba. En un 
sentido teórico, el método para construir buenas pruebas es más claro cuando tanto 
las hipótesis nula y alternativa son simples o cuando ambas son cumpuestas. En este 



9.4 Las mejores pruebas 315 

punto, se considerará un teorema para construir las mejores pruebas en el caso sen- 
cillo de H contra H,. Este teorema también tiene alguna aplicación en casos más 
prácticos.,' , ,\ - '"v .. 

Sea X¡,- X 2 , ..., X n una muestra aleatoria de tamaño n de una población cuya 
función (densidad) de probabilidad es f{x; 6), y considérese la hipótesis 

H : 6 = d 
contra 

H í :d = e l , 

en donde se especifican o ydt. Supóngase que a es el tamaño máximo del error de 
tipo I que se puede tolerar. Entonces la mejor prueba para H contra H t es aquélla 
que tiene el tamaño más "pequeño del error de tipo II (y de esta forma la mayor po- 
tencia) de entre todas las pruebas que tengan un tamaño del error de tipo I no mayor 
que a. Se pueden determinar las regiones críticas para estas pruebas mediante el uso 
del siguiente teorema, el cual se conoce como lema de Neyman-Pearson: 

Teorema 9.1 Si existe una región crítica C de tamaño a y una constante positiva k 
tal que 

LqKXí, x 2 , ..., x n ; O ) . 

k interior C , 



A)(-*li X 2i ■■■■* x n\ "0/ 
Ll(X\, X 2 , ..., X„ ; 0|) 



exterior C, 



entonces C es la mejor región crítica de tamaño a para probar H : = 6o contra 
//, : 6 = di , en donde L y L, son las funciones de verosimilitud relativa a H y H, , 
respectivamente. 

La demostración del teorema 9.1 se encuentra más allá del alcance de este libro. 
Sin embargo, puede aclararse la utilidad de este teorema mediante los siguientes 
ejemplos. 

Ejemplo 9.2 Sea X K , X 2 , . . . , X n una muestra aleatoria de tamaño n de una distri- 
bución normal con media y. desconocida y varianza a 2 conocida. Determinar la me- 
jor región crítica de tamaño a para probar 

H : ix = n 

contra 

H\\ ix = ii u 



en donde fx t > yx - 

Bajo H la función de verosimilitud es 

L (x u x 2 x„;/x ) = (\/27ro-)""exp 



-i^-*,) 2 / 2 * 2 } 



316 Prueba de hipótesis estadísticas 
y bajo A/, ésta es ■ 



expf-ií*,-/*,) 2 ^] 



Entonces, de acuerdo con el teorema 9.1, la mejor región crítica es aquélla para la 
cual 



exp -2(*í - Mo) 2 /2o- 2 



exp 



.£(*,. -/*,)72<r 2 J 



k. 



Esta desigualdad puede escribirse como 



exp 



1 

2o- 2 



2U/ - Mi) 2 - Zt*. ~ Mo) 2 



*, 



(9.3) 



la cual, después de tomar los logaritmos, se reduce a 

2>; " M,) 2 " 2>/ - Mo) 2 « 2o- 2 ln(¿). (9.4) 

El lado izquierdo de (9.4) se simplifica de la siguiente manera: 

2Uí - Mi) 2 - Zí*/ - Mo) 2 = Z*/ ~ 2miZ*í + "Mi ~ Z* 2 + 2moZ*. - rifil 

= "(Mi - Mo) - 2(mi - Mo)S*í- 
Sustituyendo en (9.4) se tiene 

/i(/x 2 - i¿l) - 2(/x, - Mo)2>. « 2o- 2 ln(¿), 
o 

-2(/ü, - Mo)2*/ ^ 2o- 2 ln(¿) - n(¿¿ 2 - Mo). 
Puesto que pt| > fx , la cantidad -2(/lí, - Mo) es negativa; así que 

n((í] - pto) - 2crln(A.) 



Z* 



2(Mi ~ Mo) 

k(¿¿ 2 - /n 2 ,) - 2o- : ln(Á:) 
2n(Mi - Mu) 



(9.5) 



La expresión (9.5) define la forma de la mejor región crítica para probar //<>: m 
= Mo contra H t : fi = /la, en donde Mi > Mo- De manera sencilla, la mejor re- 
gión crítica es el extremo derecho de la distribución de muestreo de X bajo la hipóte- 



9.4 Las mejores pruebas. 3>X$ 

sis nula. Para un « dado, el valor crítico x puede; encontrarse mediante, una 
elección apropiada de la constante positiva K, de manera tal que : 

^ í-,.^.,;..^.^ ....-, , ;H^ &Jc olf* -M«) : =av .; 3; '-,;3.j 7 . ia ¿- : .,; n ¿^'-ir.oíí> 
En particular, supóngase que se escoge un tamaño del error de tipo I igual a 0.05'.' 
Entonces el valor crítico de 3f es tal que ,\ 

P(X>Xo\ii = mo) = 0.05. 

Ya que ba[o //<>, A' tiene una distribución normal con media ^o y desviación están- 
dar o-/ \Jn, entonces q \ ¡ ^ , - 

- Mo 






/x = ito = 0.05; 



. -i <" . -v i r 



pero 

P(Zss 1.645 |/x = vl ) = 0.05, 

en donde Z ~ N(fi, 1). De acuerdo con lo anterior, el valor crítico de ]c es tal que: 

Xo ~ Ak> 



r-t/ cr 



^' 



><9 - 



Nn 



= 1.645, 



. , _ 1.645o- 



k 



Por lo tanto, se rechazará a //„: /x = Mo en favor de H t : /x = am > /¿o cada vez 
que un valor de Jf sea s* (1.645o-/Vñ) + /x<>- 

Es importante que el lector note que la forma de la mejor región crítica, como 
está dada por (9.5), para probar H : ¡jl = /x contra //,: /x = /x, es independiente 
del valor de tii siempre que /x, > p^. En otras palabras, para toda /x, > li<, la 
mejor región crítica en la prueba de H : p, = /¿o es el extremo derecho de la dis- 
tribución de muestreo de X. Así, la expresión (9.5) en realidad da la forma de la me- 
jor región para probar la hipótesis nula simple //„: p = p contra la hipótesis 
alternativa compuesta // 1 : p > /x . Esta mejor región crítica recibe el nombre de 
región (o prueba) uniformemente más potente para probar H : p = po contra 
H¡: p. > /xo- Los comentarios anteriores serán generalizados con la siguiente defini- 
ción de la mejor prueba. 



Definición 9.5 Se dice que una prueba de la hipótesis H : 8 = O es la prueba 
uniformemente más potente de tamaño a si ésta es por lo menos tan poderosa, para 
cualquier valor posible 6 de la hipótesis alternativa, como cualquier otra prueba de 
tamaño «a. Esto es, la función de potencia de esta prueba es, por lo menos, tan 
grande como lá de cualquier otra prueba de tamaño «a para cualquier valor de la 
hipótesis alternativa. 



318 Prueba de hipótesis estadísticas 

•En forma desafortunada no siempre existen las pruebas uniformemente más po- 
tentes. Como se ilustró en el ejemplo 9.2, se puede usar el lema de Neyman-Pearson 
para determinar la prueba uniformemente más potente para cierto número de situa- 
ciones de interés práctico en las que la hipótesis alternativa es compuesta pero unila- 
teral. ■■.-;.', -'v -■■ -.-■■■ -a \l 

Ejemplo 9.3 Sea X¡, X 2 , ..., X n una muestra aleatoria de tamaño n de una 
distribución gama con parámetro de escala 6 desconocidos y parámetro de forma 
a. * Determinar la mejor región crítica de tamaño a para probar 



contra 



en donde 6, < . 



H : 6 — O 
H t :6 = 0,, 



Se procederá en forma similar a la del ejemplo 9.2. Bajo H , la función de verosi- 
militud es 



L (x t ,x 2 ,...,x n ;6 ) = mam- El *? exp( - 2 *¡ / «o ) , 
y para la hipótesis alternativa ésta es 

L l {x x ,x 2 ,:..,x„;9 í ) = [T(a)ffn-YlxUM ~X *t I '*i 



Con base en el lema de Neyman-Pearson, la mejor región crítica es aquélla para la 
cual 



Esto es 



Cexpí-^MJ 
Cexpí- ^jcVíO 



k. 



exp| "% + T 



exp 






(e /e t rk 



{eje.fk 



[(0o - 0,)/0o*i]2>/ « \n[k(0 a /OX'}. 



* Se ha optado por denotar el parámetro de forma de la distribución gama con a en lugar de <* para evitar 
confundir éste con el tamaño del error de tipo I. 



9.4 Las mejores pruebas, 319; 

Se observa que la cantidad O — B t es positiva ya que por hipótesis 0, < O ; enton-> 
ees 



v 000, ln{*(0 o /0.n 



O _ 0| 
O 0, in[«flft/fl,n v^ ^ ,( 



-:>& 



N ^€^°?^ 



n(0o - 0.) 



v. 



T9.6) 



De acuerdo con lo anterior, la mejor región crítica para probar H : = O contra 
//,: = 0, en donde t < O es el extremo izquierdo de la distribución de 
muestreo de X. El valor critico * , para un tamaño dado del error de tipo I, es tal 
que: 

P(X *s x j = O ) = a, 

y puede encontrarse, en forma directa, de la distribución de X, la que en este caso 
también es una distribución gama. Para hacer lo anterior es necesario utilizar la fun- 
ción gama incompleta. De manera alternativa, si el tamaño de la muestra es lo sufi- 
cientemente grande, puede emplearse el teorema central del límite y usar entonces la 
aproximación normal. 

Dé nuevo, es interesante notar que la forma de la mejor región crítica dada por 
(9.6) no depende del valor particular siempre que 0, < o .Por tanto, en realidad 
la región crítica indicada por (9.6) es una región uniformemente más potente para 
probar H : = O contra //,: < O cuando se muestrea una distribución gama 
con parámetro de forma conocido. 

Se invita al lector a que compruebe que si, en el ejemplo 9.2, la hipótesis alterna- 
tiva es de la forma H, : fj. < jliq, la mejor región critica para probar //„: p. = m es 
el extremo izquierdo de la distribución de X. Por lo tanto, se desprende que si en el 
ejemplo 9.3 la hipótesis alternativa fuese H¡: > O , la mejor región crítica debe 
ser el extremo derecho de la distribución de X. Sin embargo, si la hipótesis alternati- 
va en cualquiera de estos dos ejemplos fuese bilateral (esto es, de la forma general 
H : = O contra //,: ^ O ), no puede encontrarse ninguna región crítica 
mejor, debido a que para todos los valores alternativos 0, < O , el extremo izquierdo 
de la distribución de X será el mejor, mientras que para todos los valores 0, > O es 
el extremo derecho el que será el mejor. Por lo tanto, como regla general, las 
pruebas uniformemente más potentes usualmente existen para hipótesis alternativas 
unilaterales, pero éstas no pueden encontrarse para hipótesis alternativas bilaterales. 

A continuación se ilustrará el uso del lema de Neyman-Pearson para determinar 
la mejor región crítica cuando la variable aleatoria de interés es discreta. 

Ejemplo 9.4 SeaA",, X 2 , ..., X„ una muestra aleatoria de tamaño n de una distri- 
bución de Poisson con parámetro k desconocido. Determinar la mejor región crítica 
de tamaño a para probar 

H : X = X 






320 Prueba de hipótesis estadísticas 

contra • , •. 

//,: X = X,, 

donde A, > Xq. 

Al proceder de manera similar a la de los ejemplos 9.2 y 9.3, se tiene 

i , . i\ _>' exp(-«X )Xf J ' 

L,(,\X\, X 2 , ..., X„,\ Q ) — T-r 

I k¡ 
y 

L(x x x-k)- ex P(-" X '>^* 

De esta manera, la mejor región crítica es aquélla para la cual 

exp(-«X )X^' 

exp[*(X, - X )] < k. 
Después de tomar los logaritmos, se tiene 

ln(XoAi)2>. + «fti ~ X ) « ln(¿) 
o 

ln(X /X.) £*, « ln(*) - «(X, - X ). 

Pero si X, > X , entonces < X /X, < 1 y el logaritmo natural de un número 
entre y 1 es negativo. Esto da como resultado que la desigualdad anterior pueda es- 
cribirse como 

^ ' ln(X /X,) ' . V- > 

La expresión (9.7) define la forma de la mejor región crítica para probar //„: X = X 
contra H t : X = X, > X . En particular, dado que Y = SA', también es una variable 
aleatoria de Poisson (véanse los ejercicios en el capítulo 7), la región crítica de la for- 
ma y = Sjc, s* y es equivalente a la desigualdad (9.7), en donde el valor crítico y 
se escoge de manera tal que 

P(Y2*y ) = a. 

Debido a que Y es una variable aleatoria discreta, es más difícil determinar el valor 
crítico de y„ de manera tal que P(Y 5= y ) sea exactamente igual al tamaño del error 
de tipo I previamente seleccionado. Para salvar esta dificultad puede implementarse lo 



9.5 Principios generales para probar una H simple contra una H, unió bilateral 321 

que se conoce como procedimiento de aleatorización (véase [2]). Desde un punto de 
vista práctico, simplemente se. escoge la-región; crítica K-d- valor de ..y 9 ¡ cuya área 
deberá ser lo más cercana al! tamaño del error de tipo I que;puede tolerarse: < t 

. . .-<. yí>;fl'.'í7iiL;i'}"*.í¡r ''.'^i\f-í ■<>X'U¡ ! ;hfí : -iTWWMí' §.Í5 íf'r. "6ríiií;*"i.; .'■' ".:'*:■-;'?' ""'■? T' '■■ ' 

'- ,.:-6¡.;4-* .:YAÍ'r r : T'v:' ' ' ..'■ : ; » . r ; ;: ; " í-o 'hv $h "'o'f^i::; «."i.^to . . .-.■;' '■ 'j -.'., 

9.5 Principios generales para probar una // simple contra una//, 
uní o bilateral 

En ía última sección se desarrolló uri criterio con el cual se pueden determinar las 
mejores pruebas para probar hipótesis estadísticas. Se mencionó que no existen 
pruebas uniformemente más potentes para hipótesis alternativas bilaterales a pesar 
de que, en forma usual, existen para hipótesis alternativas unilaterales. En esta sec- 
ción se desarrollarán criterios generales de prueba para los siguientes tres casos los 
cuales involucran hipótesis nulas simples y alternativas compuestas. 

Caso 1 Caso 2 Caso 3 



H : — 6 H : 6 = 6 H : 8 — d 

.//,:0 7¿0 O H l :6>6 //,:0<0 O 

Dado que para el caso 1 no pueden determinarse pruebas uniformemente más poten- 
tes, para tipificar éste se desea comparar las funciones de potencia de dos pruebas 
para un ejemplo específico. 

Ejemplo 9.5 Supóngase que en cierta ciudad sólo hay dos estaciones de televisión: 
el canal 6 y el canal 10. Se piensa que para las noticias de la tarde el auditorio se en- 
cuentra dividido en partes iguales para ambos canales. Una compañía se interesa en 
probar la afirmación de que la proporción de televidentes para las noticias de la 
tarde es igual a 0.5 para ambos canales. La compañía no posee ninguna información 
apriori para sugerir una alternativa unilateral por lo que decide probar la hipótesis 
nula 

H :p = 0.5 

contra 

H t :p¿ 0.5. 

La compañía encuesta a 18 residentes seleccionados al azar y pregunta qué canal pre- 
fieren para ver las noticias de la tarde. El número X indica que el canal 6 es el que 
se ha seleccionado. Se proponen las siguientes dos pruebas: 

Prueba A: Rechazar //<> si A" *s 4 o * ^ 14. 

Prueba B: Rechazar H si X s 5 o X & 13. 
í 
Si la compañía piensa tolerar un tamaño máximo de 0. 1 para el error de tipo I, deter- 
minar la mejor prueba a emplear para decidir entre H y 7/i • 



322 Prueba de hipótesis- estadísticas ■■■-■.,-'■*' - ■ • ■■■.■iv. \ ,.•:■•> v,v 

La estadística de prueba X es una variable aleatoria binomial con n = 18 y, bajo 
la hipótesis nula, p = 0.5. Las regiones críticas para ambas pruebas son intuitiva- 
mente razonables ya que se rechazará la hipótesis nula para aquellos valores de X 
que se encuentren cercanos a o a 18. En otras palabras, úp fuese realmente igual a 
0.5, debe esperarse observar un valor de X cercano a 9. Entre más se aleje el valor 
observado del valor de 9, en cualquier dirección, se tendrá más evidencia para 
inclinarse a rechazar la hipótesis nula. Esto surge del hecho de que cuando se 
prueban hipótesis estadísticas, el pensamiento se basa estrictamente en la probabili- 
dad. Por ejemplo, si p fuese igual a 0.5, la probabilidad de que X tome un valor 
entre 6 y 12 incluyendo a estos valores es 

P(6 =s X « 12) = 0.9038. 

Por lo tanto, es poco probable que H sea correcta cuando se realice un valor de X 
grande o pequeño, ue uecho, la probabilidad para observar un valor grande o pe- 
queño de A", dado que H es cierta, es precisamente lo que se entiende por el tamaño 
del error de tipo I. 

Para la prueba A, la probabilidad del error de tipo I es 

a A = P(X *£ 4 | p = 0.5) + P{X 2* 14 | p = 0.5) 
= 0.0154 + 0.0154 
= 0.0308, 
y para la prueba B éste es 

a B = P(X *£ 5 | p = 0.5) + P(X 3= 13 | p = 0.5) = 0.0962. 

No es excesivo notar que las regiones criticas bilaterales son simétricas para ambas 
pruebas. Esto es lo mejor desde el punto de vista teórico y el procedimiento más 
aceptado desde el punto de vista práctico para el manejo de hipótesis alternativas bi- 
laterales. Ya que ambas pruebas tienen valores de a menores al tamaño máximo que 
puede tolerarse del error de tipo I, se compararán sus funciones de potencia para 
decidir cuál es la mejor de las dos. En la tabla 9.4 se dan las potencias de las pruebas 
A y B para distintos valores de p. 

TABLA 9.4 Funciones de potencia de las pruebas A y B 

p 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

Prueba A A* =s 4) 0.9718 0.7164 0.3327 0.0942 0.0154 0.0013 =0 =0 =0 
P(X 3= 14) =0 =0 =0 0.0013 0.0154 0.0942 0.3327 0.7164 0.9718 

Potencia 0.9718 0.7164 0.3327 0.0955 0.0308 0.0955 0.3327 0.7164 0.9718 

Prueba B P(X *¡ 5) 0.9936 0.8671 0.5344 0.2088 0.0481 0.0058 0.0003 =0 =0 
PiX 3= 13) =0 =0 0.0003 0.0058 0.0481 0.2088 0.5344 0.8671 0.9936 

Potencia 0.9936 0.8671 0.5347 0.2146 0.0962 0.2146 0.5347 0.8671 0.9936 



9.5 Principios generales para probar una H simple contra una H, uni o bilateral 323 

. De la tabla se observa que para cualquier valor dep, la potencia de la prueba B es 
mayor que la de la prueba A. De acuerdo con lo anterior, la prueba B es uniforme- 
mente más poderosa que la prueba A y es la mejor prueba a utilizar para probarlas 
hipótesis indicadas, En la figura 9.5 se dan las curvas de potencia para las pruebas A 
y B. Nótese que en ambos casos las curvas de potencia crecen en forma simétrica 
conforme los valores de p se alejan del valor propuesto para este bajo H . Lo ante- 
rior es un comportamiento típico de una función dé potencia para hipótesis alterna- 
tivas bilaterales, siempre que la correspondiente región critica bilateral sea simétrica. 



9.5.1 Principios generales para el caso 1 

Considérese la prueba de la hipótesis nula 

H : 6 = d 



contra la alternativa 



H¡: 6 ^ 6 , 



donde O es el valor propuesto de algún parámetro 6 bajo H . Dada una muestra 
aleatoria de tamaño n de la distribución de interés, el procedimiento general para 
probar H , es escoger el mejor estimador de 6, T y rechazar H cuando el estimado 




0.1 0.3 0.5 0.7 0.9 p 



FIGURA 9.5 Comparación de las funciones de potencia para A y B 



324 Prueba de hipótesis estadísticas 

t obtenido de la muestra, es en forma "suficiente", diferente del valor propuesto de 
O . Este procedimiento se basa en la noción de un evento raro, la cual ya se ha 
ilustrado en capítulos anteriores. Esto es, si el estimado t es Jo suficientemente dis- 
tinto del valor propuesto 0¿, entonces se ha observado un evento raro (y la hipótesis-, 
nula es correcta), o se ha observado un valor de la estadística que sugiere un valor 9 
diferente del propuesto 9 . Cuando el estimado / es en forma suficiente distinto de 
0„ > se asumirá la última posibilidad y se dejará el tamaño del error de tipo I igual a 
la probabilidad del anterior. En particular, para un tamaño preseleccionado a, del 
error de tipo I se obtiene una región crítica bilateral en los extremos de la distribu- 
ción de muestreo de T, de manera tal que el área, en cualquier lado, más allá del va- 
lor crítico es igual a a/2. Entonces se rechaza H en favor de H¡ cuando el estima- 
do t se encuentra dentro de la región crítica. Cuando el estimado t no se encuentra 
dentro de la región crítica, ro puede rechazarse la hipótesis nula. De esta forma, 
cualquier diferencia con respecto al valor de d se considera causada por la fluc- 
tuación en el muestreo del estimador T. 

Este enfoque es muy similar a la construcción de un intervalo de confianza bila- 
teral para 6. Para cualquier valor propuesto de d que se encuentre dentro de un in- 
tervalo de confianza del 100(1 - a)% para 0, H no será rechazada. Dado un 
intervalo de confianza del 100(1 - a)% para 6, sólo los valores propuestos bajo 
H que se encuentren fuera de este intervalo darán como resultado el rechazo de la 
hipótesis.nula. En este contexto, es apropiado considerar a un intervalo de confianza 
como una proposición más general de inferencia estadística para 0, ya que ésta 
incluye a todos los posibles valores de d que podrían no llevar al rechazo de la hipó- 
tesis nula. 



9.5.2. Principios generales para el caso 2 

Considérese la hipótesis nula 

H : 6 = 6 
contra la alternativa 

H,:6> O . 

Para este caso al igual que para el caso tres, la naturaleza unilateral de la hipótesis 
alternativa sugiere la existencia de alguna información a priori la cual ayuda a defi- 
nir la dirección unilateral de //, en relación con el valor propuesto de 6 . El procedi- 
miento general para probar //„ es de nuevo el escoger la mejor estadística T de y 
rechazar H cuando el estimado t es en forma "suficiente" mayor que el valor 
propuesto O . La palabra "suficiente" implica que se tiene una tolerancia para la 
fluctuación en el muestreo del estimador T. Sin embargo, si lo que se obtiene de esta 
forma por medio de la muestra aleatoria se encuentra más allá de esta tolerancia, 
H será rechazada. De esta forma, para un tamaño a, del error de tipo I, la región 
crítica se encuentra localizada en el extremo superior de la distribución de muestreo 
de T y H se rechaza si el estimado t no es menor que el valor crítico. En la figura 
9.6 se ilustra la curva de potencia típica para este caso. 



9.5 Principios generales para probar una H.simple contra una H. uni o bilateral 325 




FIGURA 9.6 Curva típica de potencia para el caso 2 



9.5.3 Principios generales para el caso 3 

Para probar la hipótesis 



contra 



H : 8 — 9 



H t :9< 



el procedimiento general es rechazar a H cada vez que el estimado t sea, en forma 
"suficiente", menor que el valor propuesto 9 . La región crítica de tamaño a se lo- 
caliza en el extremo inferior de la distribución de muestreo de Ten forma tal que el 
área a la izquierda del valor crítico sea igual al tamaño a del error de tipo I. Cual- 
quier valor / de la estadística de prueba Tque se encuentre en la región crítica llevará 
al rechazo de H . En la figura 9.7 se muestra la curva de potencia para este caso. 

Con respecto a la prueba de hipótesis estadísticas, el lector debe tomar nota de lo 
siguiente. Debido a que se coloca un gran énfasis en el tamaño del error de tipo I ge- 
neralmente se formula la hipótesis nula en forma tal que ésta se rechace si la eviden- 
cia experimental apoya esta decisión. En otras palabras, lo que realmente se desea es 
concluir que la hipótesis alternativa es la correcta. De esta forma, cuando se prueban 
hipótesis estadísticas, se juega un papel parecido al de un fiscal en su intento de pro- 
porcionar la suficiente evidencia para rechazar la hipótesis nula. Los indicado es 
escoger el tamaño del error de tipo I antes de la determinación de la muestra aleato- 
ria. Si se obtiene como resultado que la hipótesis nula no puede rechazarse con el va- 
lor escogido de a debe evitarse aumentar el tamaño del error de tipo I con la idea de 
rechazar la hipótesis nula. 

La discusión anterior constituye el método clásico para probar hipótesis estadís- 
ticas. Se han dirigido algunas críticas directas hacia este enfoque debido a que la de- 



326 Prueba de hipótesis estadísticas 




FIGURA 9.7 Curva típica de potencia para el caso 3 



cisión final de rechazar o no una H dada, es demasiado cortante y seca y no pro- 
porciona una medida real de que la decisión sea correcta en términos de la probabili- 
dad. Para esto lo que se ha sugerido es el cálculo del llamado valor/?. El valor p es la 
probabilidadd, dado que H es cierta, de que la estadística de prueba tome un valor 
mayor o igual que el calculado con base en la muestra aleatoria. Un valor p relativa- 
mente pequeño puede sugerir que si H es realmente cierta, el valor de la estadística 
de prueba sea poco probable. Puede entonces optarse por rechazar H debido a que 
esta decisión tendrá una alta probabilidad de ser correcta. 

Se recomienda el cálculo del valor p acoplado con el enfoque clásico de escoger 
un tamaño del error de tipo I antes de la determinación de la muestra aleatoria. En- 
tonces, la decisión de rechazar o no a H puede basarse en una región crítica de tama- 
ño a, con el valor p proporcionando una medida real en términos de la probabilidad 
de que la decisión sea correcta. De acuerdo con lo anterior, se sugiere la siguiente 
regla: si el valor p es menor o igual a a, se rechaza H ; de otra forma no puede re- 
chazarse la hipótesis nula. El cálculo del valor p se ilustrará en los ejemplos sub- 
secuentes de este capítulo. Debe notarse que muchos paquetes estadísticos para 
computadora, tales como SAS, SPSS, BMD y otros, imprimen el valor p para casi 
todas las situaciones en las que se involucra, de alguna manera, la prueba de hipóte- 
sis estadísticas. 



9.6 Prueba de hipótesis con respecto a las medias cuando se 
muestrean distribuciones normales 

En esta sección se estudiará la prueba de hipótesis sobre la media de una distribución 
normal o las medias de dos distribuciones normales independientes. Se examinarán 



9.6 Prueba de hipótesis con respecto. á las, medias i$Xfí 

los casos en los que los valores de las varianzas son tanto conocidos como no conoci- 
dos. Se invita al lector a que consulte las secciones 8.4. 1 a 8.4.3 para efectuar com- 
paraciones con los intervalos de confianza. , - •- — ... 

9.6.1 Pruebas para una muestra ( 

Sea X t -, X 2 , ...,X„ una muestra aleatoria de una^ distribución normal con media/i. 
desconocida. En este caso el interés recae en probar uno de los siguientes conjuntos 
de hipótesis con respecto a n. 

Ha- M = Mo H : i¿ = fío H : /Ji = ^ 

Primero, supóngase que el valor de la varianza poblacional cr 2 es conocido. Enton- 
ces la estadística de prueba es la media muestral X, misma que, bajo la hipótesis 
nula, tiene una distribución normal con media /¿o y desviación estándar ar/yñ. La 
región critica üe tamaño a para la hipótesis bilateral es de la forma 



Rechazar H si < 



X > -Xj-a/2 

or (9.8) 

X *£ X a / 2 , 



donde x,_ a/2 y x a/2 son los valores cuan tiles críticos de X de manera tal que 
P{X 3= jr,_ a/2 ) = a/2 and P(X « x a/2 ) = a/2. 
Dado que bajo H , X ~ M/^o, o-/V"). entonces en forma equivalente 



/V" / V <r/V« 



_ -^ I -q/2 Mo _ -Xq/2 Mo 

¿I -a/2 - /- y Z«/2 - /- . 

cr/V« 0-/V» 

en donde z, _ a/2 y 2„/2 son los correspondientes valores cuantiles de Z. Por lo tanto, 
se sigue que H debe rechazarse cuando un valor x de la media muestral X es tal 
que 

_ _ <rz\- a ,2 , _ „ Q" Zg/2 . 

x^ -=- + /¿o o x=£ — j=- + ¡x . 

V" V" 

De manera equivalente, se rechazará H cuando 

Z^Z,- a/2 O Z^Z a /2, 

donde z = (x - /¿ )/(o-/V") es el valor de la correspondiente normal estándar al 
valor I del. 



328 Prueba de hipótesis estadísticas 

Para la hipótesis alternativa unilateral //,: ¡x > p. > la región crítica de tamaño 
a es el extremo derecho de la distribución de muestreo de X; ésta es de la forma 



Rechazar H si X 5= x, 



(9.9) 



en donde x, _„ es el valor cuantil de X, tal que P(X ^ x, _„) = a. En forma simi- 
lar, para la hipótesis alternativa //,: ¡x'< ¡x , la región crítica es de la forma 



Rechazar //„ si X =£ x a 



(9.10) 



en donde el valor x a es tal que P{X =s x„) = a. 

En la figura 9.8 se ilustran las regiones críticas para las hipótesis unilaterales en 
términos de la estadística X y su transformación a la variable aleatoria normal es- 
tándar Z. En la tabla 9.5 se proporciona un resumen de los criterios de rechazo para 
la pueba de hipótesis con respecto a la media de una distribución normal con varian- 
za conocida. 

Antes de resolver un ejemplo, se desarrollará una expresión general para la deter- 
minación del error de tipo II para uno de los casos. Considérese la hipótesis 
nula H : ¡x - ¡x contra la alternativa //,: n > ix . Supóngase que en realidad 
ix = ix, > ¡x . De acuerdo con (9.9), no puede rechazarse H si un valor de X es 
menor que (o- z, -J\Jri) + ¡x . Dado que la probabilidad del error de tipo II es igual 



Rechazar Hq 



Región crítica 
de tamaño a 



Rechazar Hq 



f(x | Hq) 

Rechazar Hq 




Región crítica 
de tamaño a 



Í(z\Hq) 




MU ; 

/ ' \ 
/ 1 \ 


r l-a 

"o) 

Rechazar Hq 


/ \ 

/ 1 \ 
/ ' ^ 

y i 


kf 



2 l-a 

b) H\ :h>hq 



FIGURA 9.8 Regiones críticas para hioótesis alternativas unilaterales 



9.6 Prueba de hipótesis con respecto a las medias 329 

TABLA 9.5 Criterios de rechazo para la prueba de hipótesis con respecto a la media de una 
distribución normal con varianza conocida 



Hipótesis nula 



Valor de la estadística de prueba bajo H 



ffo- M = Mo 



Hipótesis alternativa 



z = 



Mo 



r/Vn 



Criterios de rechazo 






Rechazar H cuando z =£ z a/2 o cuando z ** Z\- a /i 
Rechazar H a cuando z 3= Z\- a 
Rechazar H cuando z « z a 



a la probabilidad de no rechazar un H falsa, es necesario determinar 



/3 = rix<^ + fí0 



V~n 



la que en términos de la normal estándar es 



M = Mi >Mo)> 



o-z. 



f3 = P 



Z< 



V" 



+ Mo - Mi 



cr/V" 



M = Mi 



(9.11) 



Al sustituir cualquier valor /a, de la hipótesis alternativa en (9.11), se puede 
calcular el correspondiente valor de la probabilidad del error de tipo II y, de esta 
forma, la potencia. Nótese que ¡3 (y la potencia) dependen del tamaño de la muestra 
n, del tamaño a, del error de tipo I, de la diferencia {p*> - /ti) entre el valor pro- 
puesto Mo bajo H y el verdadero valor Mt bajo//,, y de la desviación estándar cr 
de la población. Para un valor fijo de a, (jl¿ - Mi) Y CT > e ^ tamaño del error de ti- 
po II disminuye conforme n aumenta. Para valores fijos de n, (p^ — p. { ) y o-, fi 
aumenta conforme a disminuye. Y para valores fijos de n, a, y o-, fi disminuye 
conforme la diferencia (/u. - Mi) aumenta. 

Para otros casos, se pueden desarrollar expresiones similares a (9.11). El 
comportamiento general del tamaño del error de tipo II como una función de n, a, 
(/t - /x, >, y o- es igual al anterior. 

Ejemplo 9.6 Los siguientes datos representan los tiempos de armado para 20 unida- 
des seleccionadas aleatoriamente: 9.8, 10.4, 10.6, 9.6, 9.7, 9.9, 10.9, 11.1, 9.6, 10.2, 
10.3, 9.6, 9.9, 1 1 .2, 10.6, 9.8, 10.5, 10. 1 , 10.5, 9.7. Supóngase que el tiempo necesa- 
rio para armar una unidad es una variable aleatoria normal con media p. y desvia- 
ción etándar a = 0.6 minutos. Con base en esta muestra, ¿existe alguna razón para 
creer, a un nivel de 0.05, que el tiempo de armado promedio es mayor de 10 minu- 
tos? 



330 Prueba de hipótesis estadísticas 

Considérese la hipótesis nula 

H Q : ¡x = 10 

contra la alternativa 

#,:/*> 10. 

Si puede rechazarse a H con a = 0.05, entonces existe una razón para creer que el 
tiempo necesario para armar una unidad es mayor de 10 minutos. Dado que P(Z s* 
1 .645) = 0.05, el valor crítico en términos de la variable aleatoria normal estándar 
es Z0.95 = 1 -645. De los datos de la muestra, el valor x es igual a 10.2 minutos. En- 
tonces 

z = l^p = io^io =l4907 

a/y/n 0.6/V20 

Dado que z = 1.4907 < zom = 1.645, no puede rechazarse la hipótesis nula. El 
valor p en este caso es la probabilidad de que la variable aleatoria normal estándar 
sea mayor o igual al valor de 1.4907, dando como resultado que H sea cierta. 
Puede verse, de la tabla D del apéndice, que 

P(Z 3= 1.4907 | ix =' 10) = 0.0681. 

Puesto que p - 0.0681 > a = 0.05, se concluye que con base en la muestra no 
existe la suficiente evidencia para rechazar la hipótesis de que el tiempo promedio 
necesario para armar una unidad es de 10 minutos. 

En el contexto de este ejemplo, supóngase que se desea dar respuesta a la siguien- 
te pregunta. Si el verdadero tiempo promedio necesario para armar una unidad es de 
10.3 minutos, ¿cuál es la probabilidad de rechazar la hipótesis nula? En este caso se 
desea obtener la potencia de la prueba para detectar la falta de veracidad de H cuan- 
do el valor verdadero es de 10.3 minutos. Primero se obtendrá el tamaño del error de 
tipo II. Mediante el uso de (9.11) se tiene 



p = P\ Z < - V 



<0-«XK645) + 10 _ 10J 



p. = 10.3 



0.6/V20 

= P(Z< -0.59 I ^ = 10.3) 

= 0.2776. 

De esta forma la probabilidad de equivocarse al rechazar H cuando la media es 10.3 
minutos, es igual a 0.2776. Por lo tanto, potencia = 1 - /? = 0.7224. Si se sigue 
este procedimiento se obtienen /3 y las probabilidades de potencia para otros valores 
de fí bajo la hipótesis alternativa, tal y como se encuentran resumidos en la tabla 
9.6. Nótese que conforme la diferencia entre el valor propuesto de la media bajo H 
y el valor verdadero bajo H\ aumenta, la potencia de la prueba también aumenta. 

Supóngase que se tiene la misma situación pero con la excepción de que no se co- 
noce el valor de la varianza poblacional cr 2 .Con base en la sección 8.4.2, la mejor es- 



9.6 Prueba de hipótesis con respecto a las medias 331 
TABLA 9.6 Error de tipo II y probabilidades de potencia para el ejemplo 9.6 



H. 10.01 


10.1 


10.2 


10.3 


10.4 


10.5 


10.6 


10.7 


0.9418 
Potencia 0.0582 


0.8159 
0.1841 


0.5596 
0.4404 


0,2776 
0.7224 


0.0901 
0.9099 


0.0188 
0.9812 


0.0024 
0.9976 


0.0002 
0.9998 



tadística de prueba a utilizar en este caso tiene una distribución t de Student. Éste es, 
bajo la hipótesis nula //„: /x = p. la estadística 

= x ~ ho 
S/y/n 

tiene una distribución t de Student con n - 1 grados de libertad. El lector debe t;ner 
muy poca dificultad al reconocer que mediante el empleo de la distribución / de Stu- 
dent, las regiones críticas para este caso son similares a las del caso anterior con res- 
pecto a las hipótesis alternativas uni o bilaterales. En la tabla 9.7 se proporciona un 
resumen. 

Ejemplo 9. 7 Mediante el empleo de los datos del ejemplo 8.9, demostrar que para 
cualquier valor propuesto /u, para /u. que se encuentre en el interior de un intervalo 
de confianza del 95%, una prueba de la hipótesis 

H : p. = /x 
contra la alternativa 

H x : i¿ t¿ ix 

no llevará al rechazo de H para a = 0.05. 

Recuérdese la sección 8.4.2 en la que un intervalo del 95% de confianza para p. 
es 500.45-507.05. Es necesario demostrar que los límites 500.45 y 507.05 coinciden 



TABLA 9.7 Criterios de rechazo para probar hipótesis con respecto a la media de una 
distribución normal con varianza desconocida 

Hipótesis nula Valor de la estadística de prueba bajo H a 



H„: ix. = /x„ 



Mo 



s/y/n 



Hipótesis alternativa Criterios de rechazo 

//,: ¿i J= fx ( , Rechazar //„ cuando / =s /,,,,„_, o cuando/ 3= t¡ .„/:.„- 1 

//,: ju.,> /Li Rechazar H n cuando t 3= /,-„.„-■ 

H,: fj. < un Rechazar //„ cuando / « t u .„-\ 



332 Prueba de hipótesis estadísticas 

con los límites de los valores propuestos Mo bajo H que llevan al rechazo de la hi- 
pótesis nula. Dado que x = 503.75 y s = 6.2 para el limite 500.45 se tiene 

= 503.75 - 500.45 
6.2/VÍ6 

y para el limite 507.05 

, = 503.75 - 507.05 = ^ 
6.2/V16 

Pero los valores ±2.131 son los límites de la región crítica bilateral de tamaño a = 
0.05 y 15 grados de libertad. En otras palabras, si /¿o ^ 500.45, entonces/ 2* 2.131, 
y si fio & 507 . 05 , / =£ - 2 . 1 3 1 . De esta forma, cualquier valor propuesto no interior 
a 500.45 y 507.05 no llevará al rechazo de // O con a = 0.05. 

Para ilustrar el cálculo del valor p en el contexto de este ejemplo, considérese la 
siguiente hipótesis nula 

H Q :¡i = 508 
contra la alternativa 

H,:il + 508. 

Dado que el valor propuesto de 508 se encuentra fuera del intervalo de confianza del 
95%, H será rechazada a un nivel a = 0.05. Para obtener el valor p se calcula el 
valor de la estadística de prueba, el cual es 

503.75 - 508 

/ = -=— = -2.7 '42. 

6.2A/16 

Dado que la hipótesis alternativa es bilateral, el valor p está dado por 

P(|7| ^ 2.742) = P(T*¿ -2.742) + P(T s= 2.742), 

en donde T es una variable aleatoria t de Student con 15 grados de libertad. En la 
tabla F del apéndice puede observarse que es necesario interpolar entre los valores 
cuantiles / ()99 i, = 2.602 y / .w. i? = 2.947. Entonces t a992 . u = 2.742, y el valor/? 
es, en forma aproximada, 0.016. Por lo tanto, si la hipótesis nula es cierta, existe 
una oportunidad menor de] 2% para observar un valor de la distribución / de Stu- 
dent con 15 grados de libertad cuya magnitud sea igual o mayor al valor observado 
de 2.742. 

La determinación de la potencia y de las probabilidades de los errores de tipo II 
para la estadística Tes algo más difícil que en el caso previo, el cual involucraba una 
distribución normal. La dificultad surge debido a que la distribución de la 
estadística de prueba, si H es falsa, no es exactamente igual a la distribución t de 
Student. De hecho, bajo la hipótesis alternativa la estadística tiene lo que se conoce 
como una distribución t no central, la cual difiere de la ordinaria t de Student por la 
introducción de un parámetro adicional. El parámetro, denotado por 8, se define 



9. 6 Prueba de hipótesis con respecto a las medias 333 

por 

y expresa la diferencia entre el verdadero valor de ¡j. bajo //, y el valor propuesto ¡aq 
bajo H en términos de o\ Como resultado se tiene que la función de potencia de la 
estadística T depende tanto de los grados de libertad v y de 5. En este caso existen las 
curvas CO como funciones de 5 y del tamaño de la muestra n tanto para las hipóte- 
sis alternativas unilaterales como para las bilaterales (véase [ 1 ]). Éstas revelan el mis- 
mo comportamiento para el tamaño del error de tipo II con respecto a n, a, y la 
diferencia entre los valores bajo H, y H al igual que en el caso previo. Debe notarse 
que para muestras de tamaño relativamente grande, por ejemplo mayor que 30, el 
cálculo de la potencia para la estadística Tse puede manejar en forma adecuada me- 
diante el empleo de la aproximación normal. 

9.6.2 Pruebas para dos muestras 

Sean X t , X 2 X„^ y K,, Y 2 Y, h muestras aleatorias provenientes de dos dis- 
tribuciones normales independientes con medias Ma y M> y varianzas <r¿ y a\, res- 
pectivamente. Supóngase que se desea probar la hipótesis nula 

Ho- fJ-x ~ Hy = So 

contra una de las siguientes alternativas: 

H,: ¡x x - fjL r ^ 8„ H,: i*. x ~ M> > $<> Hi'- M.v - V-y < 5 , 

en donde 8 es una cantidad que toma valores positivos o cero y la cual representa la 
diferencia propuesta entre los valores desconocidos de las medias. Supóngase que las 
varianzas de la población se conocen. De las discusiones en las secciones 7.7, 8.4.3 y 
el material precedente de este capítulo, es razonable concluir que la estadística de 
prueba apropiada es la diferencia muestral media X - Y. En particular, si un valor 
de X - Y con base en la muestra aleatoria es lo suficientemente diferente, mayor o 
menor que S , se rechazará la hipótesis nula dependiendo de la hipótesis alternativa 
en cuestión. Una transformación a la distribución normal estándar da origen a una 
forma equivalente de la prueba estadística dada por (8.41). En la tabla 9.8 se propor- 
ciona un resumen de la información pertinente para este caso. 

Ejemplo 9.8 Supóngase que se tienen muestras aleatorias de igual tamaño n de dos 
distribuciones normales independientes con varianzas conocidas <r; y °"i-> ' as cuales 
se emplean para probar la hipótesis nula 

contra la alternativa 

H\~- M.v - Mk = 8, > 8 D . 



334 Prueba de hipótesis estadísticas 

TABLA 9.8 Criterios, de rechazo para la prueba de hipótesis con respecto a las medias de dos 
distribuciones normales e independientes con varianzas conocidas 



Hipótesis nula 



Valor de la estadística de prueba bajo H„ 



Ho- f-x ~ Mr - 5o 



Hipótesis alternativa 



z - 



y(T' x (Ty 
T x + ~h~ Y 



Criterios de rechazo 



H\: Hx ~ Mr f 
H)- M* ~ Mr > So 
H\: Mx ~ Mr < Sp 



Rechazar H cuando z =s z„ /; o cuando z 3= zi- a /2 
Rechazar //„ cuando z s z,- a 
Rechazar //„ cuando z =s z* 



Si se especifican los tamaños particulares a y ¡3 de los errores de tipo 1 y de tipo 11, 
respectivamente, obtener una expresión para n. 

Si H es realmente cierta, la probabilidad de rechazarla es a; y si H es falsa 
(/x* - fi Y = 8, > 8 ), la probabilidad de no rechazar H es /3. Sea c el valor critico 
, con respecto a la distribución de muestreo de X — Y. Entonces H será rechazada 
cuando x - y s= c , tal que 

P(X -Y^c \fi x - Mk=8o) = «• 
En términos de la variable aleatoria normal estándar, lo anterior es equivalente a 



P Z2= 



c - S 



H 



+ Cr\ 



M* - Mr = S = oí- 



Dado que pueden determinarse valores cuantiles z,- a de la normal entándar tales 
que 



se tiene 



co - So 



a x + <T'y 



— — Z\- a - 



(9.12) 



Si M* - Mr = 8, > 8 , entonces la probabilidad de no rechazar a H es /3. Por 
lo tanto 



P(X - Y<c \n x - Mr = 8.) = £, 



9. 6 Prueba de hipótesis con respecto a las medias 335 
que en términos de la variable normal estándar es 



P\Z< c ° Sl 



^ 



<r\ 



8, = fi. 



Pero el valor cuantil zp debe ser un punto de la normal estándar tal que 

P(Z < i,,) = (3. 
Entonces se sigue que 

c - S, 



<j\ + CTy 



= z $ . (9.13) 



Debe notarse que puesto que es poco probable que j3 sea menor que 0.05, el valor 
cuantil Zp es negativo. 

Nótese que las ecuaciones (9.12) y (9.13) contienen dos incógnitas: c y n. Para 
resolver para n, primero se resolverán ambas ecuaciones para c . 



Co = *,_. /zLt£r + a„, 



\ o"x + Q" 
n 

Al igualar ambos miembros derechos, se tiene 



n 



/ZLLZY-+ 6ü = z JÚ±jñ + Sl 



M + g Mz,- n -"z <B ) = g, -So. 

> AI 

Dado que para la normal estándar — ^ = r.i-^, 

— (-l-a + Z\-p) = S| - 8„. 

la cual, después de resolver para n, se reduce a 



= (<r|+ q-^q,.. + z,-,,) 1 
" ■ (8, - So) 2 



(9.14) 
La expresión (9.14) determina el tamaño de cada una de las dos muestras aleato- 



336 Prueba de hipótesis estadísticas 

rias en las dos distribuciones normales independientes, asegurando probabilidades a 
y /3 para los errores de tipo I y tipo II, respectivamente, cuando se prueba 

contra 

//i: Hx ~ Mk = 8, > So- 
Para un ejemplo específico, sean o-^ = 25, a\ - 20, 8 - 5, 8, = 8, a = 0.05, 
y /3 = 0.10. Entonces z„ 9 , = 1.645, z l(90 = 1.28, y 

(25 + 20)( 1.645 + I.28) 2 

n = — i = 43. 

(8 - 5)- 

Se invita al lector a que obtenga una expresión similar para la hipótesis alternati- 
va del lado izquierdo. Para una hipótesis alternativa bilateral, es posible obtener una 
aproximación del tamaño de n mediante el empleo de la expresión (9.14) y reempla- 
zando a con a/2. A pesar de que este enfoque no es exacto, para muchas situaciones 
prácticas es suficiente. 

A continuación se examinará el caso en el que el valor de la varianza no se cono- 
ce; si las varianzas o> y cr\ no se conocen pero se supone que son iguales, entonces 
para la hipótesis nula 

la estadística de prueba es 



H». fi x - fj. Y - S 
T X - Y - 8„ 



'pJ— + — 



(9.15) 



la cual tiene una distribución t de Student con n x + n r — 2 grados de libertad. El 
estimador combinado S 2 P de la varianza común o- 2 está dado por la expresión (7.28). 
De las discusiones anteriores, las regiones críticas de tamaño a para las hipótesis al- 
ternativas uni y bilateral, deben ser evidentes. Éstas se encuentran resumidas en la 
tabla 9.9. 

Ejemplo 9.9 En forma reciente se ha incrementado el interés de evaluar el efecto 
del ruido sobre la habilidad de las personas para llevar a cabo una determinada tarea. 
Un investigador diseña un experimento en el que se pedirá a un determinado número 
de sujetos que lleven a cabo una tarea específica en un medio controlado y bajo dos 
niveles diferentes de ruido de fondo. El investigador selecciona 32 personas que son 
capaces de realizar la misma tarea y de manera práctica en el mismo tiempo. Del 
total de personas, 16 seleccionadas al azar realizarán esta tarea bajo un nivel modes- 
to de ruido de fondo. Las restantes 16 llevarán a cabo la misma tarea bajo un ruido 
de nivel 2, el cual es más severo que el ruido de nivel 1 . Los siguientes datos represen- 
tan los tiempos observados (en minutos) que fueron necesarios para completar la ta- 
rea para cada una de las 16 personas de cada nivel. 



9. 7 Prueba de hipótesis con respecto a las medias 337 

TABLA 9.9 Criterios de rechazo para la prueba de hipótesis con respecto a las medias de dos 
distribuciones normales e independientes con varianzas iguales pero desconocidas 



Hipótesis nula 



Valor de la estadística de prueba bajo H„ 



H»: M* ~ Mr - 8;i 



t = 



y - S„ 



n x n y 



Hipótesis alternativa 



Criterios de rechazo 



H t : m.v - M> ¥= S„ 

H\'- M.v ~ M> > So 
//,: fj-x ~ Mr < 8» 



Rechazar H„ cuando t =s t a 
en donde m = nx + " > ~ 

Rechazar H a cuando / » t,_ a „ 

Rechazar //„ cuando t « f„.„, 



o cuando? 3» /,. 

- ? 



Nivel 1 


14 


12 


15 


15 


11 


16 


17 


12 


14 


13 


18 


13 


18 


15 


16 


11 


Nivel 2 


20 


22 


18 


18 


19 


15 


18 


15 


" > 2 


18 


19 


15 


21 


~>~> 


18 


16 



Asumiendo que estos datos constituyen muestras aleatorias de dos distribuciones 
normales e independientes con varianzas iguales pero no conocidas, ¿existe alguna 
razón para creer que el tiempo promedio para el nivel 2 es mayor por más de dos mi- 
ninos que para el nivel 1 con a = 0.01? 

Sean jjl, y p. 2 las medias desconocidas para los niveles 1 y 2 respectivamente. El 
valor propuesto para la diferencia entre /x 2 y Mi es 8 = 2. En otras palabras, se 
afirma que el valor de ¿u. 2 es mayor que ¿u, por una cantidad igual a dos minutos; 
pero en realidad lo que se desea demostrar es que fi 2 es más grande que Mi por más 
de dos minutos. De acuerdo con lo anterior, considérese la hipótesis nula 



contra la alternativa 



fío- P-i - Mi = 2 



H\- M2 - Mi > 2. 



Dado que a = 0.01 y n, = n 2 = 16, el valor crítico es f 099 30 = 2.457. Délos 
datos se tiene que x , = 14.375, x 2 = 18.5, i, = 2.2767, y s 2 = 2.4495; por lo que el 
estimado combinado de la varianza común es 



(15X2.2767) 2 + 15(2 .4495 ) 2 
16+16-2 



= 5.5917, 



s„ = 2.3647. 



338 Prueba de hipótesis estadísticas 

Entonces el valor de la estadística de prueba es 



, =. " 8 - 5 - l4 ; 375 > - 2 - 2.54,7. 

23647 Jh-k 



Dado que el valor de 2.5417 se encuentra dentro de la región critica de tamaño 0.01, 
se rechaza la hipótesis nula. Bajo H , el valor/? es la probabilidad de que T> 2.5417, en 
donde T~ t de Student con 30 grados de libertad. Mediante el empleo de la tabla F del 
apéndice y después de interpolar, se obtiene que 

P(Ts* 2.5417) = 0.0085. 

Por lo tanto, con base en este experimento, puede concluirse que la diferencia entre 
las medias de los niveles 1 y 2 es mayor de dos minutos estadísticamente discernible 
con valor p de 0.0085 

9.6.3 Reflexión sobre ¡as suposiciones y sensitividad 

Antes de pasar a la siguiente sección, puede ser benéfico el detenerse un momento y 
reflexionar sobre las suposiciones que se han formulado con respecto a las pruebas 
de hipótesis estadísticas sobre las medias. Se ha hecho énfasis con anterioridad, en 
que los procedimientos inferenciales estadísticos proporcionan un camino objetivo y 
veraz para formular inferencias con respecto a las características de la población con 
base en muestras aleatorias. Estos procesos por lo general tienen éxito sólo cuando 
las suposiciones que se han formulado para el desarrollo de las distribuciones de 
muestreo apropiadas se adhieren en forma razonable a la población. Los enfoques 
fortuitos y casuales para la aplicación de los métodos estadísticos, sin una compren- 
sión de sus suposiciones y de las posibles consecuencias si éstas no se satisfacen, 
muchas veces lleva a una mala interpretación y a conclusiones erróneas. 

Como ya se ha visto, la distribución t de Student juega un papel muy importante 
para formular inferencias con respecto a las medias, en forma especial en muestras 
de tamaño modesto. Pero la distribución t se basa en la suposición de que el 
muestreo se lleva a cabo sobre una distribución normal. Si el muestreo no se lleva a 
efecto sobre una distribución normal, el uso de la distribución t de Student es inco- 
rrecto debido a que, por ejemplo, las regiones críticas de tamaño a son probable- 
mente más grandes que el valor que se especifica para a. Sin embargo, en forma 
afortunada, la distribución t es muy robusta, o insensible a la suposición de normali- 
dad, y en forma especial cuando el tamaño de la muestra es mayor o igual a 15. 

Cuando se emplea la distribución t de Student para comparar dos medias, es 
mucho más severo violar la suposición de varianzas iguales que la suposición de nor- 
malidad. Por una razón intuitiva del efecto aparente, supóngase que en realidad se 
están muestreando dos distribuciones normales, una con media /¿ = 100 y desvia- 
ción estándar o- = 20, y la otra con m = 120 y o- = 30. El intervalo cuatro sigma 
de la primera es de 60 a 140 mientras que para la segunda es de 60 a 180. Por lo tan- 
to, puede observarse un valor menor o igual a 140 en cualquiera de las dos pobla- 
ciones. Sin embargo, estos valores no implicarán que exista una diferencia entre 



9.6 Prueba de hipótesis con respecto a las medias 339 

las dos medias. Únicamente las observaciones de una segunda muestra que 
sean mayores de 140 empezarían a sugerir una diferencia media aparente, pero su 
número es probablemente demasiado pequeño para hacer la diferencia entre las me- 
dias discernibles. De esta forma, con base en la estadística Tes probable que se lle- 
gue a la conclusión equivocada de que no existe diferencia entre las medias con una 
frecuencia inaceptable debida al desbalance en la variación inherente de las dos dis- 
tribuciones. 

Para cuantificar el efecto de varianzas desiguales se simularon 1 000 muestras 
aleatorias, cada una de tamaño 20 a partir de dos distribuciones normales mediante 
el empleo de paquete IMSL. Para la primera distribución se escogieron los valores 
de la media y de la desviación estándar iguales a 100 y 20, respectivamente. Para la 
segunda se emplearon los valores de 110, 120 y 130 para la media, y los valores de 
25, 30 y 40 para la desviación estándar. De acuerdo con lo anterior se simularon 12 
casos donde para cada par de muestras aleatorias se probó la hipótesis 

H : fx., - fi 7 = 

contra la alternativa 

//,: fí¡ — fí 2 < 

mediante el uso de la estadística T de Student dada por (9.15). Para cada caso se 
determinó el número, de entre 1 000 ensayos, para el que la hipótesis nula no podía 
rechazarse con a = 0.05. De esta forma es posible comparar el tamaño del error 
de tipo II para cada caso contra el valor correspondiente que puede obtenerse de las 
curvas CO en [1], cuando ambas desviaciones estándar tienen un valor igual a 20. Las 
probabilidades para el error de tipo II se dan en la tabla 9. 10. Cuando se comparan los 
valores /3 para varianzas iguales, existe un incremento apreciable en el tamaño del 
error de tipo II conforme la diferencia entre las varianzas es más pronunciada. Por lo 
tanto, el efecto de violar la suposición de varianzas iguales cuando se comparan las 
medias puede ser sustancial. 

Ahora se examinará el efecto en el tamaño del error de tipo I si se viola la suposi- 
ción de varianzas iguales. Esto es, si se supone que H es cierta, ¿qué efecto pueden 
tener las varianzas desiguales sobre al Scheffé [4] determinó que si los tamaños de 
las muestras n, y n 2 son grandes pero iguales, la estadística Fes considerablemente 
más robusta a la suposición de varianzas iguales cuando se comparan dos medias. 
La tabla 9. 1 1 (véase [4] para los detalles) contiene el tamaño del error de tipo I con 



TABLA 9.10 Probabilidades /3 simuladas para el efecto de varianzas desiguales cuando se 
comparan dos medias (¿a, = 100, o-, = 20) 



o-, = 20 cr, = 25 a 2 = 30 o> = 40 



Mz = 110 0.550 0.626 0.687 0.758 

/u 2 = I20> 0.065 0.139 0.209 0.389 

M; = 130 0.002 0.008 0.021 0.093 



340 Prueba de hipótesis estadísticas 

TABLA 9.11 Probabilidades a para el efecto de varianzas desiguales cuando se comparan 
dos medias 



o\la\ 






1/5 


1/2 


1 


2 


5 


"i/": 


1 

2 
5 


0.050 
0.120 
0.220 


0.050 
0.080 
0.120 


0.050 
0.050 
0.050 


0.050 
0.029 
0.014 


0.050 
0.014 
0.002 



base en un intervalo de confianza del 95% para /n, - jl¿ 2 como una función del co- 
ciente de los dos tamaños muéstrales y el cociente de las dos varianzas. Nótese que el 
tamaño del error de tipo I no cambia en el primer renglón con respecto a su valor 
preestablecido de 0.05, aun a pesar de que el cociente de las varianzas cambie. 

A través de toda la discusión de la inferencia estadística se ha supuesto que se ob- 
tiene una muestra aleatoria y que por lo tanto las observaciones se encuentran inde- 
pendientemente distribuidas. Si estas suposiciones no se cumplen, es probable que 
cualquier inferencia estadística que se formule sea errónea sin importar el tamaño de 
la muestra. Aún así, la suposición que, en forma probable, es la que se viola, la ma- 
yoría de ; las veces es la de una muestra aleatoria. 

Relacionado en forma cercana al concepto de aleatoriedad, es la selección de la 
muestra cuando las medias de los dos niveles (o más, como se estudiará mas adelan- 
te) se comparan entre sí. Con propósitos de ilustración, recuérdese el ejemplo 9.9. 
Dado que se seleccionaron 16 personas aleatoriamente para desempeñar la tarea 
dada bajo el nivel 1 , se deduce que las personas que realizaron la tarea en el nivel 2 
también fueron seleccionadas de manera aleatoria. Este procedimiento asegura una 
asignación imparcial de cuáles de las 32 personas se encontrarán sujetas a un deter- 
minado nivel de ruido. En inferencia estadística este proceso de selección imparcial 
recibe el nombre de aleatorización. El principio de aleatorización protege contra la 
introducción de sesgo sistemático en la asignación de personas u objetos a diferentes 
niveles y por ello consolida la credibilidad de la inminente comparación. 

Se ha visto cómo las diferencias inherentes en la variabilidad pueden oscurecer la 
comparación entre dos medias. Muchas veces, durante el proceso de observar datos 
muéstrales, factores externos no controlados pueden causar diferencias en la varia- 
bilidad. Sin embargo, mediante la adhesión al principio de aleatorización, estos fac- 
tores externos probablemente tengan un efecto balanceado sobre las mediciones 
bajo los dos niveles de interés. Por ejemplo, en el problema del ruido, factores tales 
como el estado de ánimo del individuo en el momento de realizar la tarea no pueden 
ser controlados. El principio de aleatorización tiende a neutralizar tales efectos. 

9.6.4 Prueba sobre las medias cuando las observaciones están pareadas 

De la última sección recuérdese que cuando se comparan las medias de dos niveles, 
es deseable tener a las personas u objetos que producirán las observaciones dentro de 



9.6 Prueba de hipótesis con respecto a las medias 341 

cada nivel, tan homogéneas como sea posible. Si existe un efecto debido a factores 
externos, éstos pueden neutralizarse mediante la aplicación del principio de aleatoria 
zación. También es posible controlar la variación no deseada controlando los facto- 
res extraños. Esto se logra tomando las observaciones en pares, donde se supone que 
las condiciones externas son las mismas para cada par pero pueden variar de par 
en par. En forma general, existe una relación natural entre las observaciones de un 
par. Esto es, para cada par se selecciona una personal objeto al azar y se somete a 
ambos niveles de interés. A pesar de que se desea determinar si existe alguna diferen- 
cia entre las medias, no puede considerarse a los pares como dos muestras aleatorias 
independientes. 

Como ilustración, se examinará el siguiente problema: un investigador médico se 
interesa en determinar si un fármaco experimental tiene el efecto colateral no desea- 
ble de elevar la presión sistótica sanguínea. Para conducir un estudio de amplia co- 
bertura se seleccionan en forma aleatoria n personas de diferentes edades y condicio- 
nes de salud. En un ambiente controlado de laboratorio se toma la presión sanguí- 
nea de los n sujetos y se les administra el fármaco durante un lapso adecuado de 
tiempo después del cual se les vuelve a tomar la presión sanguínea. 

Sean (A",. Y,)AX 2 ,Y 2 ) (X„,Y„) los n pares, donde (X„ Y¡) denota la pre- 
sión sistólica sanguínea del /-ésimo sujeto antes y después de adiministrar el medica- 
mento. Nótese que en este caso los factores externos son la condición del individuo 
en relación con su edad, su salud y otras pecualiaridades que pueden tener un efecto 
único sobre la presión sanguínea. Puesto que cada sujeto forma un par, el efecto de 
los factores externos sobre la presión sanguínea se encuentra entre los pares y cual- 
quier diferencia sustancial de la presión dentro de cada par puede atribuirse al efec- 
to de la droga. Así, al tomar la diferencia entre las dos observaciones de cada par es 
posible remover (bloquear) la variabilidad en la presión sanguínea a consecuencia de 
los factores externos. Esto hace posible una comparación válida de la presión sanguí- 
nea antes y después de administrar el medicametno. Por lo tanto, el interés se centra 
en la columna de diferencias de la tabla 9.12 generada al restar una observación de la 
otra para cada par. 

Se supone que las diferencias D,,D 2 D„ constituyen variables aleatorias in- 
dependientes distribuidas normales tales que E{D¡) = fí D y Var{D¡) = <rb para 
toda / = I. 2, .... n. Lo anterior es posible si se supone independencia entre los pa- 



TABLA 9.12 Diferencias entre las observaciones en un experimento 

Número de par Nivel 1 Nivel 2 Diferencia 

(persona) (PS antes) (PS después) Y - X* 

1 X, K, D, = K, - A*, 

2 A"; Y-, D, = Y 2 - X, 



X„ Y. D„ = Y, - X„ 



" Puede tomarse fácilmente la diferencia X — Y. 



342 Prueba de hipótesis estadísticas 

res (pero no necesariamente entre los valores de éstos) de manera tal que Efl¡) = /x, 
y E( Y ¡) = n¡ + fi D para /' = 1 , 2 ... n. De esta forma para el /-ésimo par, los valo- 
res esperados difieren por una constante, la cual es el valor esperado de Ó, para /' = 
1, 2 ... n. Además, Var(X¡) = o* y Var(Y¡) = <t\ son desconocidas y no necesa- 
riamente iguales, pero se supone que son constantes para toda / = 1, 2, ..., n. 

En el contexto del problema de la presión sanguínea, lo que se está diciendo es lo 
siguiente: la constante Md es la diferencia media en la presión sanguínea como con- 
secuencia del medicamento. Aun a pesar de que las presiones sanguíneas promedio 
varían de persona a persona por las diferencias en las condiciones de salud, se piensa 
que Md es probablemente igual para todas las personas. Nótese que si fi D fuese 
cero, esto podría sugerir que el medicamento no tiene ningún efecto sobre la presión 
sanguínea. Por otro lado, si Md es mayor que cero, esto podría indicar un incremen- 
to de la presión sanguínea promedio a consecuencia del medicamento. La varianza 
o-¿ de las diferencias en la presión sanguínea no es conocida y depende de las varian- 
zas antes y después de administrarse el medicamento. A pesar de que las varianzas 
o* y «"y pueden ser dife r entes, se supone que son constantes de persona a persona. 

La discusión anterior demuestra que se pueden formular inferencias sobre las 
medias de dos niveles cuando las observaciones están pareadas al considerar la co- 
lumna de diferencias como una sola variable aleatoria y al aplicar los métodos de la 
sección 9.6.1. Bajo la hipótesis nula 

la estadística 

r = ^^2 (9.16) 

S D /\/n 
tiene una distribución t de Student con n - 1 grados de libertad, en donde 

n 

5=2 DJn 



S 2 D = 2 (A - D) 2 /(n - 1). 

Las regiones críticas de tamaño a para las hipótesis alternativas uni y bilaterales se 
encuentran resumidas en la tabla 9.13. 

Ejemplo 9.10 En el problema anterior de la presión sanguínea, sea a = 0.01 y 
pruébese la hipótesis nula 

H : Md = 

contra la alternativa 

H t :fi D >0, 



9.6 Prueba de hipótesis con respecto a las medias 343 

TABLA 9.13 Criterios de rechazo para la prueba de hipótesis con respecto a las medias 
cuando las observaciones están pareadas 



Hipótesis nula 


Valor de la estadística de prueba bajo H v 


Ho- y-D — So 


t d~S 
sjyjn 


Hipótesis alternativa 


Criterios de rechazo 



H,: ií-d í So Rechazar H cuando/ =s t a/2 . „_, 

o cuando t & /,.„ /2 ,„_, 

//,: fL D > 8o Rechazar H cuando / s* /,_„ „_, 

H,: f-D < 8o Rechazar H„ cuando / « t a „_, 



con base en los datos muéstrales de la tabla 9. 14. 

En la columna de diferencias se tiene que d = 3.75 y s D = 3.7929. De esta 
forma el valor de la estadística de prueba es 

_ ^Ti^o _ 

3.7929/VI2 

Dado que el valor crítico es t 099t ,, = 2.718, se recházala hipótesis nula de no efecto 
del medicamento. Por lo tanto, con base en los resultados de este estudio, un incre- 
mento en el valor promedio de la presión sanguínea es estadísticamente discernible 
con un valor p de 0.0036. 

Es importante notar que en el ejemplo anterior no existe ninguna oportunidad de 
aplicar el principio de aleatorización para remover los posibles sesgos sistemáticos. 



TABLA 9.14 Datos muéstrales para el ejemplo 9.10 



PS PS Diferencias 

Sujeto antes después (después - antes) 

1 128 

2 176 

3 110 

4 149 

5 183 

6 136 

7 118 

8 158 

9 150 

10 130 

11 126 

12 162 



134 


6 


174 


-2 


118 


8 


152 


3 


187 


4 


136 





125 


7 


168 


10 


152 


2 


128 


-2 


130 


4 


167 


5 



344 Prueba de hipótesis estadísticas 

Lo anterior es típico de las situaciones antes-después en las que las observaciones se 
aparean con el propósito de remover efectos externos. Sin embargo, es posible que 
intervengan otros factores externos entre las mediciones y que éstos causen diferen- 
cias sustanciales en las observaciones de algunos pares; esta influencia será acredita- 
da de manera equivocada a los efectos que se están verificando. En el problema de la 
presión sanguínea algunos de los sujetos pueden sufrir cambios en su salud que sean 
independientes del medicamento que se les administra, y estos cambios pueden a su 
vez causar un aumento (o disminución) de la presión sanguínea. El siguiente ejemplo 
proporciona un experimento mejor para comparar dos medias para observaciones 
pareadas. 

Ejemplo 9.11 La investigación ha desarrollado variedades superiores de maíz que 
proporcionarán cantidades más grandes de éste por unidad de tierra. Un investiga- 
dor ha desarrollado una nueva variedad híbrida de este grano y piensa que es supe- 
rior a la mejor variedad disponible. También cree que esta nueva variedad rebasará 
con mucho la producción estándar en varias localidades geográficas. Para verificar 
lo anterior, el investigador diseña el siguiente experimento: se seleccionan 10 parce- 
las de igual tamaño cada una en distinta localidad geográfica. Cada parcela se divide 
en dos secciones iguales, de manera tal que puedan cultivarse las dos variedades en 
cada localidad. Para remover los posibles sesgos sistemáticos, se aplica el principio 
de aleatorización a todas las parcelas para decidir qué sección es la que se cultiva y 
con qué tipo de variedad. Lo anterior se logra lanzando una moneda para decidir la 
variedad. Se controlan tantos factores como es posible; por ejemplo, la temporada 
de siembra, el tipo de fertilizante y el intervalo de aplicación. En el momento de re- 
coger la cosecha, se anotan las toneladas por unidad de área. Supóngase que los da- 
tos que se muestran en la tabla 9.15 son los que se observaron. Con base en estos 
datos, obténgase un intervalo de confianza del 95% para la diferencia media en la 
producción entre las variedades X y Y. 

Antes de proceder con el análisis, debe notarse que se están bloqueando los fac- 
tores externos como resultado del apareamiento en la localidad geográfica. En situa- 
ciones de este tipo, existe muy poca duda con respecto a que las condiciones de la 
tierra y otros efectos probablemente no sean los mismos en las diferentes localida- 
des. De esta forma existe una gran oportunidad para observar un efecto sustancial 
sobre la producción a consecuencia de la localidad. También, nótese que esta oportu- 
nidad se presenta al aleatorizar la asignación de variedades a las parcelas para remo- 
ver cualquier sesgo sistemático. 



TABLA 9.15 Datos muéstrales para el ejemplo 9.1 1 



Tipo 


/-, 


¿: 


¿ } 


¿4 


L< 


/-„ 


L- 


/-» 


L„ 


L¡o 


Variedad A' 


23 


35 


29 


42 


33 


19 


37 


24 


35 


26 


( estándar ) 






















Variedad Y 


26 


39 


35 


40 


38 


24 


36 


27 


41 


27 


(nueva) 























9.6 Prueba de hipótesis con respecto a las medias 345 

Para obtener el intervalo de confianza deseado, las diferencias entre las produc- 
ciones de Xy y en las 10 localidades son -3, -4, -6, 2, -5, -5, 1, -3, -6, y 
-1. Con base en éstas, d - -3 ys = 2.8284. Asumiendo que estas diferencias 
son los valores de dos variables aleatorias independientes y normalmente distribui- 
das, un intervalo de confianza del 95% para fi D es 



d ± t 



s D \ 



975. 9 



Víó' 



-3 ± (2.262)(2.8284/Vl0), 

el que se reduce al intervalo ( - 5.0232, -0.9768). Dado que el valor cero no se in- 
cluye en este intervalo, se rechaza la correspondiente hipótesis nula de que la dife- 
rencia es cero a un nivel de a = 0.05 

Rcult_ apropiado colocar el problema de comparar las medias de dos niveles 
en una mejor perspectiva para justificar la planeación de un experimento con base en 
muestras independientes o con base en muestras pareadas. Sean X y y los dos nive- 
les de interés, asumiendo un tamaño n igual para las dos muestras independientes y n 
pares de observaciones. Dado que lo que se desea en cualquiera de los casos es una 
inferencia^ con_respecto a la diferencia entre las medias, la estadística para ambos 
casos es X - Y. De esta manera, bajo la suposición de que se muestrean distribucio- 
nes normales un intervalo de confianza del 100(1 - a)9c para la diferencia 
media en cualquiera de los casos es de la forma general 

(X - Y) ± /,_„,;.„, d.e.(X -Y). (9.17) 

donde m es el número de grados de libertad. En la expresión (9.17) existen dos térmi- 
nos que difieren en ambos casos. Uno es el valor cuantil t¡ - a/2 , m ; y el otro es la des- 
viación estándar de la estadística X - Y. Cuando las observaciones son pareadas, el 
valor cuantil es una función de m = n - I grados de libertad, mientras que para 
muestras independientes se basa en m - 2(« - 1 ) grados de libertad. Para un a 
dado, el valor cuantil aumenta conforme el número de grados de libertad disminuye. 
Entonces, un intervalo de confianza para muestras pareadas es más amplio debido a 
la pérdida de grados de libertad. 

A la luz de la información anterior, la desviación estándar de X - K se con- 
vierte en un cambio a mantener en mente cuando se escoge entre muestras indepen- 
dientes o muestras pareadas. Si se permite a un factor extraño, el cual influye en forma 
potencial que varíe, cuando se toman las muestras independientes, la consecuen- 
cia probable es una variabilidad importante entre las observaciones, dando como 
consecuencia un valor grande d.e. (X ■- Y). Al parear las observaciones, es posible 
neutralizar la influencia del factor extraño y mantener su efecto igual dentro de 
cada par. Entonces, las observaciones dentro de cada par estarán probablemente co- 
rrelacionadas. Esto es, para un par dado, es probable que un valor grande de X dé 
como resultado un valor grande de yo viceversa, lo cual da como resultado unaco- 
varianza positiva entre X y Y. Se sigue entonces que, dado \uriX Y)=\^artX) 
+ Vari Y) 2Co\(X, Y), la varianza de X - Y (asi como también la de X - Y) 



346 Prueba de hipótesis estadísticas 

será más pequeña para muestras pareadas que para muestras independientes. Por lo 
tanto, en un experimento bien planeado para observaciones pareadas, la reducción 
en el valor de la desviación estándar de X -.- Y, por lo general compensará el 
aumento en el valor crítico debido a la reducción en el número de grados de libertad. 
Como ilustración, en el ejemplo 9.11 se calculó el estimador s D = 2.8284. Si los 
datos se consideran como muestras independientes de dos distribuciones normales 
con varianzas iguales, un estimado de la varianza común es 

, 9(52.6778) + 9(43.1222) An n 
s p = = 47.9, 

o s p = 6.921 el valor s p = 6.921 es más del doble del valor s D = 2.8284. Al cons- 
truir un intervalo de confianza del 95% para muestras independientes, se obtiene 



-3 ±(2.101X6.921)./-^ + ^, 



=»y¿ 



(-9.5029,3.5029). 

El obvio que no puede rechazarse la hipótesis nula de no diferencia entre las medias, 
si los datos fuesen considerados como muestras independientes. 



9.7 Pruebas de hipótesis con respecto a las varianzas cuando se 
muestrean distribuciones normales 

Se argumentó con anterioridad, que una inferencia con respecto a una varianza es tan 
importante como una con respecto a la media. En medios industriales, por ejemplo, 
la variabilidad de un producto puede ser una medida más importante que el prome- 
dio del producto. Por esta razón, así como también por la necesidad de comprobar 
la hipótesis de varianzas iguales, se presentarán criterios para probar hipótesis* con 
respecto a las varianzas con base en una sola muestra aleatoria o con base en dos 
muestras aleatorias independientes provenientes de distribuciones normales. Como 
era de esperarse, los criterios para probar hipótesis con respecto a las varianzas se 
basan en los correspondientes métodos para construir intervalos de confianza, tal 
como se descutió en las secciones 8.4.4. y 8.4.5. Nuevamente es imperativo hacer én- 
fasis en que estos procedimientos son, en forma especial, sensibles a la suposición de 
normalidad. 

9.7.1 Puebas para una muestra 

Sea X t , X 2 , . . . , X„ una muestra aleatoria de una distribución normal con media M 
desconocida y varianza cr 2 desconocida. Considérese nula la prueba de la siguiente 
hipótesis 

//„: o- 2 = o- 2 



9. 7 Pruebas de hipótesis con respecto a las variamos 347 

contra una de las siguientes alternativas 

H,:<r 2 í <rl, H t : a 2 > a 2 , H l :a 2 <a 2 , 

donde o- o es el valor propuesto para a 2 . La estadística de ínteres es -la varianza 
muestra! S 2 . La hipótesis nula será rechazada si la realización de S 2 calculada a par- 
tir de la muestra, es, en forma suficiente, diferente, mayor que o menor que crl, de- 
pendiendo de la hipótesis alternativa. Pero bajo H , la cantidad (n — l)s 2 /al es un 
valor de una variable aleatoria chi-cuadrada con n - 1 grados de libertad. Entonces, 
por ejemplo, si la hipótesis alternativa es //,: a 2 > al, se rechazará a H a si el 
valor de (« - l)s 2 /(rl se encuentra dentro de la región crítica de tamaño a en el la- 
do derecho de la distribución chi-cuadrada con n - 1 grados de libertad. En la tabla 
9.16 se proporciona la información más relevante al respecto. 

Como se notó con anterioridad, la violación de la suposición de que el muestreo 
se lleva a cabo sobre una distribución normal tiene un efecto sustancial cuando se 
emplea la estadística chi-cuadrada para inferencias con respecto a las varianzas. 
Para ilustrar este efecto, se simuló un experimento jimilar al descrito en la sección 
8.4.3. Para un tamaño de la muestra n = 30, se generaron 1 000 muestras aleatorias 
para cada una de las siguientes distribuciones: uniforme, exponencial y gama. Los 
valores de los parámetros de cada distribución se seleccionaron en cada caso para 
proporcionar una varianza de 100. Para cada muestra aleatoria se probó la hipótesis 
nula 

H :a 2 = 100 

contra la alternativa 

H,:a 2 > 100, 

mediante el empleo de la estadística chi-cuadrada con a = 0.05. Para cada distri- 
bución se contó el número de veces para las que se rechazaba la hipótesis nula. Los 
resultados se encuentran en la tabla 9.17. 

Dado que a = 0.05 representa la probabilidad de rechazar una hipótesis cierta 
(tal cual es el caso aquí), se espera que 50 de las 1 000 muestras proporcionen esta de- 



TABLA 9.16 Criterios de rechazo para la prueba de hipótesis con respecto a la varianza de 
una distribución normal con media desconocida 



Hipótesis nula 


Valor de la estadística de prueba bajo H 


u 2 2 
/!(). <T = CT 


X" - 2 


Hipótesis alternativa 


Criterios de rechazo 



H¡: a- 2 j= al Rechazar H cuando x : =* xí-«/2. „-i. o cuando x" *= Xl/i. <■-■ 

H¡: ir 2 > o-o Rechazar H„ cuando \~ =* xí-«. n-i 

H,: a- 2 < al Rechazar //«cuando x 2 « xl. »-i 



348 Prueba de hipótesis estadísticas 

TABLA 9.17 Número de rechazos de la hipótesis nula de entre 1 000 muestras para tres 
distribuciones de igual varianza 



Tipo de distribución y valores de los parámetros 


Uniforme 
(0, V12Ó0) 


Gama 

. Forma = 2; Escala = V50 


Exponencial 
Media = 10 


8 


107 


156 



cisión cuando se muestree una distribución normal. Sin embargo, con base en los re- 
sultados existe una discrepancia suficiente para creer que la estadística chi-cuadrada es 
sensible a la suposición de que el muestreo se lleva a cabo sobre una distribución nor- 
mal. No está por demás notar que los resultados del estudio de simulación son de al- 
guna manera predecibles, especialmente si se comparan los f actúes de forma de las 
distribuciones seleccionadas con los de la distribución normal. La distribución uni- 
forme es sim étrica, al igual que la normal, pero se encuentra definida en el intervalo 
(0, V'200). Como consecuencia, la verosimilitud disminuye porque algunas 
muestras pueden contener valores extremos que pueden aumentar el valor de la va- 
rianza muestral. Así, el número de rechazos es menor que el que se espera. La distri- 
bución exponencial es la que tiene una mayor asimetría de entre las tres distribu- 
ciones seleccionadas y el mayor valor de curtosis. Por lo tanto, no es sorprendente 
que el número de rechazos sea mucho más grande que el correspondiente a una dis- 
tribución normal. La distribución gama, con parámetros de forma y escala iguales a 
2 y V50, respectivamente, se encuentra entre las anteriores ya que su coeficiente de 
asimetría es \íí y su curtosis relativa es 6. 

9.7.2 Pruebas para dos muestras 

Sean X u X 2 , ..., X„ , y Y,, Y 2 , . . . , Y„ dos muestras aleatorias de dos distribucio- 
nes normales independientes con medias desconocidas ^ y fi r y varianzas desco- 
nocidas a\ y cr\. Considérese la prueba de la siguiente hipótesis nula 

H : (j\ = or\ 

contra una de las siguientes alternativas: 

//,: cr.v f ir], H,: <jy > cr] . /Y,: o-.y < a 2 .-. 

Las estadísticas de interés son las varianzas muéstrales S\- y -V; . Por ejemplo, con 
respecto a la hipótesis alternativa bilateral, puede rechazarse la hipótesis nula si el 
estimador .v v es lo suficientemente diferente del estimador s~¡ . De la sección 7.8, 
recuérdese que por virtud de la independencia, las cantidades (n v - 1 )S\/(.t 2 s y (n y 
- l).SV<r; son dos variables aleatorias independientes chi-cuadrada con n x - I 
y ii) - I grados de libertad, respectivamente. Entonces se sigue la estadística 

h = c-/ - 



9. 7 Pruebas de hipótesis con respecto a las variamos 349 

tiene una distribución F con n x - 1 y n Y - 1 grados de libertad. Pero bajo la hi- 
pótesis nula, a-ji = a Y , de esta forma la estadística se reduce a 

F = S x /S\. 

Para una hipótesis alternativa bilateral y un tamaño a del error de tipo I, se 
rechazará la hipótesis nula cuando /= s x /s\ "2? f\- a/ 2. „ x -\. „,-i o cuando 
/ s£ 1 //i -„/2. m- 1. n X -\- En la tabla 9.18 se proporciona un resumen completo de 
los criterios de rechazo. 

Como ilustración, recuérdese que en el ejemplo 9.9, se asumió que las varianzas 
eran iguales al comparar las medias para los dos niveles de ruido. Para verificar la 
validez de esta suposición a un nivel de a = 0.1, supóngase que se prueba la hipóte- 
sis 

H : a 2 , = a\ 
contra la alternativa 

Se observa que los valores críticos, izquierdo y derecho, son f ^ , 5 15 = 2.40 y 
I//095. i?. i5 = 1/2.40 = 0.42, respectivamente. Con base en los datos de la muestra 
s] = 5. 1833 y si = 6.0. De esta forma el valor de la estadística de prueba es 

/= 5.1833/6 = 0.8639. 

Dado que / - 0.8639 no es ni mayor ni igual a 2.4, ni menor o igual a 0.42, no es 
posible rechazar la hipótesis nula. De acuerdo con lo anterior, los resultados muéstra- 
les no proporcionan una razón válida para sospechar que está siendo violada la supo- 
sición de varianzas iguales. 



TABLA 9.18 Criterios de rechazo para la prueba de hipótesis con respecto a las varianzas de 
dos distribuciones normales independientes 

Hipótesis nula Valor de la estadística de prueba bajo H„ 

//„: o-.v = a] f = s\/s\ 

Hipótesis alternativa Criterios de rechazo 

., ■> , ■• Rechazar //„ cuando / 3= j] -„,•> „ -i.„ -i. 

o cuando / « I //, _„., „ ( . , „ v _ , 

H, : o-.v > o-; Rechazar H„ cuando f * /i „. „ v _ i. ,,, - 1 

H\: <t\ < al' Rechazar //«cuando /s l//i„. »,-i.», ■-' 



350 Prueba de hipótesis estadísticas 

9.8 Inferencias con respecto a las proporciones de dos distribuciones 
binomiales independientes 

En la sección 8.4.6 se desarrollaron los criterios para la construcción de intervalos de 
confianza para el parámetro de proporción p, cuando se muestrea una distribución 
binomial. En muchas ocasiones, el interés recae en. comparar la proporción de un 
grupo distinto con la de otro, en relación con alguna característica en común. Por 
ejemplo, puede tenerse interés en comparar la proporción de unidades defectuosas 
para un producto dado, que se fabricó por dos compañías que compiten entre sí. O 
puede existir algún interés en comparar las proporciones de estudiantes de prepara- 
toria en dos localidades geográficas diferentes que tienen un número de respuestas 
correctas para la prueba SAT por encima de cierto nivel. De esta forma, es necesario 
entender las ideas presentadas en la sección 8.4.6 para comparar los parámetros de 
proporción cuando se muestrean dos distribuciones binomiales independientes. 

Como ilustración, en un estudio reciente se compararon las proporciones de per- 
sonas zurdas y derechas que fuman. La población general se dividió en dos grupos, 
zurdos y derechos, y cada grupo fue subdividido en amadores y no fumadores. Sea 
p, la proporción de personas zurdas que fuman y p 2 la proporción de personas dere- 
chas que fuman. El interés recae en hacer una comparación entre p, y p 2 . 

Supóngase que los zurdos y los derechos constituyen dos distribuciones binomia- 
les independientes tales que la proporción de fumadores en los dos grupos es p , y p 2 , 
respectivamente. Con base en muestras aleatorias de tamaño «, y n 2 , sean X y y.el 
número observado de personas zurdas y derechas que fuman, respectivamente. Las 
proporciones muéstrales 

P, =*//!„ 

P 2 = Y/n 2 

son los estimadores de máxima verosimilitud de p, y p 2 , respectivamente. Dado que 
por hipótesis Xy Y son variables aleatorias binomiales, las varianzas de los estima- 
dores están dadas por 

VariPt) = VariX/ni) = p,(l - y?,)//i,, 
Var(P 2 ) = Var(Y/n 2 ) = p 2 (\ - p 2 )/n 2 . 

Supóngase que se desea construir un intervalo de confianza muestral grande para 
la diferencia entre p, y p 2 . La estadística de interés es la diferencia entre las dos pro- 
porciones muéstrales. Ya que 

E(P l ) = p l , E(P 2 ) = p 2 , 

entonces, con base en el teorema 6.1 y su corolario dado por la expresión (7.2) 

E(P, - P 2 ) = p, - p 2 , (9.18) 



9. 7 Pruebas de hipótesis con respecto a las varianzas 351 



Var{P t - P 2 ) = Var(P,) + Var(P 2 ) 

_ PiP ~ P\) P2O ~ Pi) (9.19) 

Con base en una discusión anterior (véase el capítulo 5) puede demostrarse que 
en valores grandes de n¡ y n 2 , la distribución de la estadística P, - P 2 es, en forma 
aproximada, normal con media y varianza dadas por (9.18) y (9.19), respectivamen- 
te. En otras palabras, la distribución de 

Z,_ < ? ' - ? -> - <"■ - "¿- (9.20) 



y 



/*■(! ~ Pi) + P¿1 ~ P2) 
«1 n 2 



es aproximadamente N(Q,\) n x y n 2 . Nótese que el denominador en la expresión 
(9.20) proporciona un estimador de la desviación estándar de la estadística P, - P 2 , 
ya que se han reemplazado las proporciones muéstrales/», yp 2 . Por lo tanto, se sigue 
que para n l y n 2 grandes, la probabilidad del intervalo aleatorio 

[(P, - P 2 ) - zt- a/I d.e.<? l - P 2 ), (P, - P 2 ) + z l . a/2 s.d.(P l - P 2 )] 

es aproximadamente 1 - a, y un intervalo de confianza aproximado del 100(1 - 
a)% para p t — p 2 es: 



KP\ ~ P2) ± Zi-a/2 J + , (9-21) 

V «1 n 2 

en donde p, = x/n, y p 2 = y/n 2 son los estimados de máxima verosimilitud depi 
y p 2 respectivamente. 

Ejemplo 9.12 En un estudio de los hábitos de fumador para personas zurdas y de- 
rechas, una muestra aleatoria de 400 zurdos reveló que 190 de éstos fuman, y en una 
muestra aleatoria de 800 derechos, 300 de éstos fuman. Con base en esta evidencia, 
construir un intervalo de confianza del 98% para la diferencia real entre las propor- 
ciones p, y p 2 . 

Los estimados de las proporciones son 

p, = 190/400 = 0.475, p 2 = 300/800 = 0.375. 

Dado que los tamaños de las muestras son grandes, la aproximación normal es ade- 
cuada para este caso. Para un intervalo de confianza del 98% ¿ .99 = 2.33 y el inter- 
valo de confianza es 



- , ~ .. /(0.475X1 - 0.475) (0.375)0 - 0.375) 
(0.475 - 0.375) ± 2.33 J - + . 



352 Prueba de hipótesis estadísticas 

el cual simplifica al intervalo (0.0295, 0.1705). Dado que este intervalo de confianza 
no incluye al origen y, de hecho, se encuentra a la derecha de éste, puede concluirse 
con un 98% de confiabilidad, que el porcentaje de zurdos que fuman es mayor que 
el correspondiente para las personas derechas. 

Supóngase que el interés recae en probar la hipótesis nula 

Ho'-Pi ~ Pi = 

contra una de las siguientes alternativas: 

H x :p x -p 2 ÍO, H,:p i -p 2 >0, H,: p t - p 2 < 0. 

Dadas muestras aleatorias de tamaños n x y n v considérese la estadística P¡ - P 2 . 
La intuición sugiere que debe rechazarse la hipótesis nula si un valor de la estadística 
es, en forma suficiente, diferente, mayor que, o menor que cero, dependiendo de la hi- 
pótesis alternativa. En forma equivalente, la decisión puede basarse en una prueba 
estadística similar a la dada por (9.20), la cual es aproximadamente N(0, 1) para va- 
lores grandes de n, y n 2 . 

Dado que bajo H se supone que las dos proporciones son iguales, sea p = p , = p 2 
la proporción común. Entonces, si la hipótesis nula es cierta, la estadística P, - P 2 
tiene una distribución, en forma aproximada, normal con media 

E(P t -? 2 ) = 

y desviación estándar 



d.e.("\ - p 2> = 



1 1 



- l Vp<l - p) ) U¡¡; + ¡J- 

Ya que el valor de p no se conoce, se combina la información de las dos muestras 
para obtener el estimador combinado 

X + Y 

p = — —~ • 
n, + n 2 

donde Xy Y son las variables aleatorias que se observaron y que poseen la caracte- 
rística de interés. Entonces un estimado de la desviación estándar de P, - P 2 es 

en donde p = í.v + >•)/(« i + n 2 ) es el estimador combinado de p. Bajo //,, la esta- 
dística 

Z = P ' ~ p2 (9.22) 



(V*l - P)) (J± + ¿) 



Ejercicios 353 

es aproximadamente N(0, 1) para valores grandes de n, y n 2 . Dependiendo de la hi- 
pótesis alternativa, el lector no debe tener dificultad para decidir cuándo rechazar 
H con base en (9.22) dado un tamaño del error de tipo I. 



Referencias 

1. A. H. Bowker and G. J. Lieberman, Engineering statistics, Prentice-Hall, Englewood 
Cliffs, N.J., 1959. 

2. P. G. Hoel, Introduction to mathematical statistics, 4th ed,, Wiley, New York, 1971. 

3. B. W. Lindgren, Statistical theory, 3rd ed., Macmillan, New York, 1976. 

4. H. Scheffé, The analysis ofvariance, Wiley, New York, 1959. 



Ejercicios 

9.1. Suponga que usted desea probar la hipótesis 

H„: = 5 

contra la alternativa 

H,:0 = 8 

por medio de un solo valor que se observa en una variable aleatoria con densidad de 
probabilidad f{x: 0) = ( l/0)exp( -x/0), x > 0. Si el tamaño máximo del error de tipo 
I que puede tolerarse es de 0.15, ¿cuál de las siguientes pruebas es la mejor para escoger 
entre las dos hipótesis? 

a) Rechazar //„ si X 3= 9 

b) Rechazar //„ s i X s= 10 
C ) Rechazar //„ s i X s II 

9.2. Suponga que usted observa un solo valor de una variable aleatoria cuya función de den- 
sidad está dada por j\x\ 6) = 1/0, < x < 6, y desea probar la hipótesis 



contra la alternativa 

//,: = 15. 

¿cuál de las dos pruebas a) rechazar //„ si X s 8. o b) rechazar //„ si X > 8 es la 
mejor para decidir entre las dos hipótesis? 

9.3. Se sabe que la proporción de artículos defectuosos en un proceso de manufactura es de 
0. 1 5 . El proceso se vigila en forma periódica tomando muestras aleatorias de tamaño 20 
e inspeccionando las unidades. Si se encuentran dos o más unidades defectuosas en la 
muestra, el proceso se detiene y se considera como "fuera de control". 

a) Enunciar las hipótesis nula y alternativa apropiadas. 

b) Obtener la probabilidad del error de tipo I. 

c) Obtener y graficar la función de potencia para los siguientes valores alternativos de la 
proporción de artículos defectuosos: 0.06, 0.08, 0.1, 0.15, 0.2, y-0.25. 



354 Prueba de hipótesis estadísticas 

d) Compárense sus respuestas con las partes b y c para el caso en el que se juzga al pro- 
ceso como fuera de control cuando se encuentran tres o mas defectuosas. 

9.4. La cantidad promedio que se coloca en un recipiente en un proceso de llenado se supone 
que es de 20 onzas. En forma periódica, se escogen al azar 25 recipientes y el contenido 
de cada uno de éstos se pesa. Se juzga al proceso como fuera de control cuando la media 
muestral X es menor o igual a 1 9.8 o mayor o igual a 20.2 onzas. Se supone que la canti- 
dad que se vacia en cada recipiente se encuentra aproximada, en forma adecuada, por 
una distribución normal con una desviación estándar de 0.5 onzas. 

a} Enuncíense las hipótesis nula y alternativa que son propias para esta situación. 

b) Obtener la probabilidad del error de tipo I. 

c) Obtener y granear la función de potencia para los siguientes valores medios de llena- 
do: 19.5, 19.6. 19.7, 19.8, 19.9, 20.0, 20.1 , 20.2, 20.3, 20.4, y 20.5. _ 

d) Como una prueba alternativa, considérese el rechazo de H Q cuando X « 1 9.75 o 
cuando X & 20.25. Si el tamaño máximo del error de tipo I es de 0.05, ¿cuál de las 
dos pruebas es la mejor? 

9.5. Con referencia al ejercicio 9.4, supóngase que el tamaño de la muestra se aumenta a 36 
recipientes. Dados los mismos tamaños del error de tipo I para las pruebas propuestas, 
obtener los nuevos valores críticos y comparar las funciones potencia de las dos 
pruebas. 

9.6. Los siguientes datos son los tiempos de sistema observados (tiempo de espera más tiem- 
po de servicio) para 10 clientes en una tienda: 8.7, 2.4, 18.2,10.5,9.7,4.8, 11.2,29.3, 
10.8, 15.6. Supóngase que el tiempo del sistema es una variable aleatoria con una distri- 
bución gama, con parámetro de forma igual a 2 y parámetro de escala desconocido. 
(Sugerencia: véase la expresión (5.51) y el teorema 7.1.) 



a) Pruébese la hipótesis nula 



contra la alternativa 



//„: = 5 



H,:0>5, 



con un tamaño máximo del error de tipo I igual a 0.05. 
b) Si el valor real de 6 fuese 7, ¿cuál sería la probabilidad del error de tipo II? 

9.7. Sea X,, X 2 , .... X„ una muestra aleatoria de tamaño n de una distribución normal con 
media fx desconocida y varianza a- 2 conocida. Obtener la mejor región crítica de tama- 
ño a para probar 

Un ■ M = Mo 
contra 

H,: t¿ = fi t . 
en donde ¿¿i < n». 

9.8. Sea X,. X 2 X„ una muestra aleatoria de tamaño n de una distribución de Poisson 

con parámetro X desconocido. Obtener la mejor región critica de tamaño a para probar 

W u :X = Xu 



Ejercicios 355 

contra; 

//,:\ = X,, 

en donde, X, < Xo- 

9.9„ £1 número de accidentes en un crucero muy transitado sigue el modelo exacto de una 
distribución de Poisson con una media de 2.5 accidentes por semana. Un ingeniero de 
tráfico decide reducir la velocidad límite de las dos avenidas que se intersectan en el cru- 
cero. La decisión con respecto a si la reducción en el limite de velocidad disminuye el nú- 
mero de accidentes promedio por semana, se tomará con base en el número total de ac- 
cidentes que se observan durante un período de cuatro semanas a partir de la reducción 
en el límite de velocidad. 

a) Enunciar las hipótesis nula y alternativa apropiadas para esta situación. 

b) Para un tamaño máximo del error de tipo I igual a 0. 1 , obtener el valor critico de la 
estadística de prueba para el rechazo de la hipótesis nula. (Sugerencia: véanse el 
ejemplo 9.4 y el ejercicio 7.6.) 

c) Si el número de accidentes promedio disminuyó a 2, obtener la probabilidad del error 
de tipo II. 

9. 10. Sea X u X 2 , ■■■, X„ una muestra aleatoria de tamaño n de una distribución exponencial 
con parámetro de escala desconocido. Obtener la mejor región crítica de tamaño a 
para probar 

H Q : = B 

contra 

H x : = 0|, 
donde 0, > O . 

9. 1 1 . Se seleccionaron al azar cuatro unidades de videojuegos y se probaron hasta que ocurre 
la falla de éstos. £1 tiempo que observaron los que tuvieron las fallas son 148.2, 120.6 
165.5 y 145.7 horas. Supóngase que el lapso de tiempo que transcurre hasta que se pre- 
senta la falla es una variable aleatoria exponencial, empléese el ejemplo 7.4 para probar 
la hipótesis nula de que el tiempo medio para que una falla ocurra es de 140 contra la al- 
ternativa de que éste es mayor de 140 horas con una probabilidad del error de tipo I 
igual a 0.01. (Sugerencia: Empléese una técnica iterativa en conjunción con la expresión 
(5.56).) 

9.12. Un contratista ordena un gran número de vigas de acero con longitud promedio de 5 
metros. Se sabe que la longitud de una viga se encuentra normalmente distribuida con 
una desviación estándar de 0.02 metros. Después de recibir el embarque, el contratista 
selecciona 16 vigas al azar y mide sus longitudes. Si la media muestral tiene un valor más 
pequeño que el esperado, se tomará la decisión de enviar el embarque al fabricante. 

a) Si la probabilidad de rechazar un embarque bueno es de 0.04, ¿cuál debe ser el valor 
de la media muestral para que el embarque sea regresado al fabricante? 

b) Si la longitud promedio real es de 4.98 metros, ¿cuál es la potencia de la prueba en el 
inciso al 

9.13. En el ejercicio 9.12, ¿cuál es el tamaño necesario de la muestra para que la probabilidad 
de detectar una disminución de 0.015 metros en la longitud, media sea de 0.99? 



356 Prueba de hipótesis estadísticas 

9.14. El propietario de una automóvil compacto sospecha que la distancia promedio por 
galón que ofrece su carro es menor que la especificada por la EPA, la cual es de 30 millas 
por galón. El propietario observa la distancia recorrida por galón en nueve ocasiones y 

- obtiene los siguientes datos: 28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1. Des- 
pués de una investigación el propietario concluye que la distancia por galón es una 
variable aleatoria que se distribuye normal con una desviación estándar conocida de 1 .4 
millas por galón. Con base en esta información, ¿se encuentra apoyada la sospecha del 
propietario con a =0.01? ¿Cuál es el valor p en este caso? 

9.15. En el ejercicio 9. 14, ¿cuántas veces debe observarse la distancia recorrida por galón para 
que con una probabilidad de 0.9 sea detectado un valor tan bajo como 28 mpg? 

9.16. En cierto condado de Iowa, la cosecha promedio de maíz por acre fue de 100 toneladas 
por acre. Para un año dado en el que el clima fue particularmente bueno, se selecciona- 
ron 12 parcelas en forma aleatoria y éstas arrojaron una cosecha promedio de 106 tone- 
ladas por acre, para la misma variedad de maíz. Si la producción por acre se modela en 
forma adecuada por una distribución normal con una desviación estándar de 8 tonela- 
das por acre, ¿existe alguna razón para creer que este año la producción será mejor que 
la producción promedio normal? Empléese a = 0.01 . Para este caso, ¿cuál es el valor 

9.17. Para el ejercicio 9.16, obtener el correspondiente intervalo inferior de confianza del 
99% para el estimador del valor real promedio de la producción por acre, y deducir el 
intervalo de posibles valores para m bajo la hipótesis nula para la que H no puede re- 
chazarse con el mismo valor de a. 

9.18. En una planta de armado se diseña una operación específica la cual toma un tiempo 
promedio de 5 minutos. El gerente de la planta sospecha que para un operador en parti- 
cular el tiempo promedio es diferente. El gerente toma una muestra de 1 1 tiempos de 
operación para este empleado y obtiene los siguientes resultados (en minutos): 4.8, 5.6, 
5.3, 5.2, 4.9, 4.7, 5.7, 4.9, 5.7, 4.9, 4.6. Si se supone que el tiempo de operación se 
encuentra modelado en forma adecuada por una distribución normal: 

a) ¿Se encuentra la sospecha del gerente apoyada por la evidencia con a = 0.02? ¿cuál 
es el valor de pl 

b) Obtener el correspondiente intervalo de confianza estimado del 99% para el tiempo 
promedio real, y deducir el intervalo de posibles valores de fi bajo //„ para los que 
no puede rechazarse la hipótesis nula. 

9. 19. A veces los producios radioactivos de desecho industrial van a dar a las fuentes de agua 
que se utilizan para el consumo de la población. Por razones como ésta, las agencias es- 
tatales de salud vigilan en forma periódica las fuentes naturales de agua mediante la 
toma y el análisis de muestras de agua. En forma legal se ordena que la cantidad prome- 
dio de radiación en el agua para beber no debe exceder el valor de 4 picocuries por litro 
de agua. Se toma una muestra de 16 especímenes de una fuente natural de abasto de una 
zona densamente poblada, la cual proporciona valores para la media y la desviación es- 
tándar muestral de 4.2 y 1.2 picocuries por litro, respectivamente. Supóngase que la 
cantidad de radiación por litro de agua se encuentra modelada, en forma aproximada, 
por una distribución normal. 

a) ¿Debe usarse un valor, en particular, pequeño para la probabilidad del error de tipo 
I en esta situación? ¿Por qué? 



Ejercicios 357 

b) Selecciónese un valor de alfa y pruébense las hipótesis adecuadas. ¿Cuál es el valor 
dep? 

c) ¿Debería preocupar la suposición de normalidad? Coméntese. 

9.20. En el ejercicio 9.14, supóngase que la desviación estándar del rendimiento en distancia 
por galón no se conoce. Pruébese la misma hipótesis del ejercicio 9.14 y compárense los 
resultados. ^ 

9.21 . En el ejercicio 9. 1 1 , supóngase que se asume un tiempo de falla el cual se encuentra nor- 
malmente distribuido. Pruébese la misma hipótesis del ejercicio 9.11 y compárense los 
resultados. 

9.22. Considérese la prueba de H : p = p contra H x :p = p\ para el parámetro binomial/?, 
en donde p¡ > p - Mediante el empleo del lema de Neyman-Pearson, demuéstrese que 
la mejor región crítica de tamaño a se basa en el número de éxitos observados en los n 
ensayos independientes. 

9.23. Un fabricante de lavadoras afirma que sólo el 5% de todas las unidades que vende 
sufren una falla iurante el primer año de operación normal. Una organización de con- 
sumidores ha pedido a 20 familias de igual número de miembros que han adquirido 
estas lavadoras, que reporten cualquier mal funcionamiento durante el primer año. Al 
final de éste, sólo tres familias reportaron mal funcionamiento. 

a) Si la organización de consumidores cree que la proporción de lavadoras que sufrirán 
alguna falla es más alta que el valor afirmado por el fabricante, empléese el ejercicio 
9.22 para determinar si puede rechazarse H : p = 0.05 con un tamaño máximo del 
error de tipo I de 0.1. 

b) Mediante el empleo de un método aproximado basado en el material de la sección 
8.4.6, pruébese la hipótesis nula y compárense las probabilidades de las estadísticas 
de prueba, asumiendo valores tan extremos o más de los determinados, dado que H 
es cierta. 

9.24. Supóngase que en una muestra aleatoria de 20 bebés concebidos mediante un proceso de 
fertilización in vitro, 15 son mujeres. 

a) Mediante el uso del ejercicio 9.22, determínese qué tan probable es el tener 15 o más 
mujeres, si la verdadera proporción de éstas es de 0.5. 

b) Compárese la probabilidad de la parte a con la que se obtiene mediante el empleo de 
la aproximación normal. 

9.25. Una organización de salud se interesa en actualizar su información con respecto a la 
proporción de hombres que fuman. Con base en estudios previos, se cree que la propor- 
ción es del 40%. La organización lleva a cabo una encuesta en la que se seleccionan en for- 
ma aleatoria 1 200 hombres a los cuales se les preguntan sus hábitos de fumador. De los 
1 200, 420 son fumadores. Emplee un método aproximado para determinar si esta evi- 
dencia apoya la noción de que la proporción de hombres que fuman es diferente del 
40% para a = 0.01. 

9.26. El responsable de la campaña política del candidato A piensa en el ambiente de las últi- 
mas semanas previas a las elecciones. Él piensa que su candidato se encuentra en igual 
posición que su oponente, el candidato B, pero han ocurrido algunos reveses en forma 
reciente. El responsable lleva a cabo una encuesta en 1 500 ciudadanos.Si de los 1 500 
720 indicaníuna preferencia por el candidato A, ¿existe alguna razón para creer que el can- 
didato A se encuentra en desventaja con relación al candidato B? Empléese a - 0.05. 
a = 0.05. 



358 Prueba de hipótesis estadísticas 

9.27. un fabricante desea comparar la tensión promedio de su hilo con la de su más cercano 
competidor. Las tensiones de 100 hilos para cada marca se observaron bajo condiciones 
controladas. Las medias y desviaciones estándar de cada marca fueron las siguientes: 

Jr, = 1 10.8 x, = 108.2, 
.v, = 10.2 s 2 = 12.4. 

Si se supone que el muestreo se llevó a cabo sobre dos poblaciones normales e indepen- 
dientes, ¿existe alguna razón para creer que hay una diferencia entre las tensiones 
promedio de ruptura de los dos hilos? Úsese a = 0.02. ¿Cuál es el valor de/?? (Suge- 
rencia: la estadística dada por (8.41) en la que los estimados vf y s] reemplazan a las co- 
rrespondientes varianzas poblacionales es aproximadamente N(0, 1) para valores gran- 
des de «i y n 2 ). 

9.28. En el ejercicio 9.27, obtener las curvas de potencia y característica de operación. 

9.29. Obtener una expresión equivalente a (9.14) para probar H : /i* - ¿i> = S contra 
H,: f-x ~ V-r = 6, < S - 

9.30. Se cree que el promedio verbal para el número de respuestas correctas para la prueba 
SAT para las mujeres es mayor que el de los hombres por más de diez puntos. Las 
muestras aleatorias para ambos sexos arrojaron los siguientes resultados: 

Hombres Mujeres 



n, = 125 n 2 = 100 

x, = 480 x 2 = 460 

.v, = 60 s, = 52 



a) Si se muestrearon dos poblaciones independientes normales, ¿se encuentra la creen- 
cia apoyada por la evidencia muestral con a = 0.05? ¿Cuál es el valor de pl 

b) Supóngase que la verdadera diferencia es de 15 puntos. ¿Cuál es la potencia de la 
prueba anterior? 

9.31. Mediante el empleo de los datos del ejercicio 8.32, determine si existen diferencias 
estadísticamente discernibles para la tensión de ruptura de los metales producidos por 
los dos procesos con a = 0.05. ¿Cuál es el valor depl 

9.32. A finales de la década de los setenta se descubrió que la sustancia carcionogénica nitro- 
sodimetilamina (NDMA) se formaba durante el secado de la malta verde, la cual se 
empleaba para fabricar cerveza. A principios de los ochenta se desarrolló un nuevo pro- 
ceso para el secado de la malta, el cual minimizaba la formación de NDMA. Se tomaron 
muestras aleatorias de una cerveza doméstica que se fabricó empleando ambos procesos 
de secado, y se tomaron los niveles de NDMA en partes por billón. Se obtuvieron los 
siguientes resultados: 

Proceso anterior 



Proceso propuesto 2 I 2 2 I 3 2 I I 3 

si se supone que se muestrearon dos distribuciones normales independientes con varian- 
zas iguales, ¿existe alguna razón para creer, a un nivel de a = 0.05 que ha disminuido 
la cantidad promedio de NDMA en más de dos partes, por billón con el empleo del 
nuevo proceso? 



Ejercicios 359 

9.33. Se espera que dos operadores produzcan, en promedio, el mismo número de unidades 
terminadas en el mismo tiempo. Los siguientes datos son los números de unidades ter- 
minadas para ambos trabajadores en una semana de trabajo: 



Operador 1 


Operador 2 


12 


14 


II 


18 


18 


18 


16 


17 


13 


16 



Si se supone que el número de unidades terminadas diariamente por los dos trabajado- 
res son variables aleatorias independientes distribuidas normales con varianzas iguales, 
¿se puede discernir alguna diferencia entre las medias a un nivel «t = 0. 1? 

9.34. En el ejercicio 9.33, dado que los datos son observaciones diarias sobre un periodo de 
una semana, ¿debe usted considerar un enfoque alternativo a este problema? Discuta las 
ventajas de este enfoque y demuestre que se obtienen resultados diferentes a los del ejer- 
cicio 9.33. ¿Por qué se obtienen resultados diferentes? 

9.35. Un investigador médico se interesa en comparar la efectividad de dos dietas muy popu- 
lares, A y B. En particular, el investigador desea determinar si una dieta es más efectiva 
para reducir el peso de las personas obesas en un lapso dado de tiempo. Discuta de ma- 
nera completa el cómo debe el investigador llevar a cabo su experimento. Asegúrese de 
indicar las suposiciones necesarias. 

9.36. Un educador ha desarrollado una nueva prueba de aptitud mucho más breve que la que 
se encuentra en uso. El educador desea comparar las dos pruebas. Discuta el enfoque 
que empleará el educador para hacer posible tal comparación. 

9.37. Un fabricante desea comparar el proceso de armado común para uno de sus productos 
con un método propuesto que supuestamente reduce el tiempo de armado. Se selec- 
cionaron ocho trabajadores de la planta de armado y se les pidió que armaran las unida- 
des con ambos procesos. Los siguientes son los tiempos observados en minutos. 



Trabají 


idor Proceso actual 


Proceso propuesto 


1 


38 


30 


2 


32 


32 


3 


41 


34 


4 


35 


37 


5 


42 


35 


6 


32 


26 


7 


45 


38 


8 


37 


32 



a) En a = 0.05 ¿existe alguna razón para creer que el tiempo de armado para el proce- 
so actual es mayor que el del método propuesto por más de dos minutos? 

b) ¿Qué suposiciones son necesarias para probar la hipótesis del inciso a, y cuál es el 
i valor de pl 

c) Obténgase un intervalo de confianza del 95% para la diferencia entre las medias de 
los tiempos de armado. 



360 Prueba de hipótesis estadísticas 

9.38. Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la ha- 
bilidad de pensamiento para llevar a cabo determinada tarea. Se seleccionaron al azar 
diez personas de distintas características y se les pidió que participaran en el experimen- 
to. Después de proporcionarles la información pertinente, cada persona llevó a cabo la 
tarea sin nada de alcohol en su organismo. Entonces, la tarea volvió a llevarse a cabo, 
después de que cada persona habia consumido una cantidad suficiente de alcohol para 
tener un contenido en su organismo de 0.17o. 

a) Discutir los aspectos importantes de control que el experimentador debe considerar 
al llevar a cabo el experimento. 

b) Supóngase que los tiempos "antes" y "después" (en minutos) de los diez participan- 
tes son los siguientes: 

Participante Antes Después 



1 


28 


39 


2 


22 


45 


3 


55 


67 


4 


45 


61 


5 


32 


46 


6 


35 . 


58 


7 


40 


51 


8 


25 • 


34 


9 


37 


48 


10 


20 


30 



¿Puede concluirse a un nivel de a = 0.05 que el tiempo promedio "antes" es menor 
que el tiempo promedio "después" por más de diez minutos? 

9.39. En el ejercicio 9.19, ¿existe alguna razón para creer que la varianza en la cantidad de ra- 
diación en la fuente de agua es mayor de 1.25 picocuries cuadrados? Emplee a = 0.05. 

9.40. Desarróllense expresiones generales para calcular la probabilidad del error de tipo II 
cuando se prueban las hipótesis H a : cr 2 = 0-5 contra cualquiera de las dos siguientes 
alternativas H¡: a~ > cr 2 , y //,: cr 2 < cr 2 ,. 

9.41 . Empléense los resultados del ejercicio 9.40 para obtener la potencia de la prueba ¿le la 
hipótesis en el ejercicio 9.39 si cr 2 = 1 .4. 

9.42. El gerente de una planta sospecha que el número de piezas que produce un trabajador 
en particular por día, fluctúa más allá del valor normal esperado. El gerente decide ob- 
servar el número de piezas que produce este trabajador durante diez días, seleccionados 
éstos al azar. Los resultados son 15, 12.8, 13, 12, 15, 16, 9, 8, y 14. Si se sabe que la 
desviación estándar para todos los trabajadores es de dos unidades y si el número de és- 
tas que se produce diariamente, se encuentra modelado en forma adecuada por una dis- 
tribución normal, a un nivel de a = 0.05, ¿tiene apoyo la sospecha del gerente? ¿Cuál es 
el valor de pl 

9.43. En un proceso de llenado, la tolerancia para el peso de los recipientes es de ocho 
gramos. Para reunir este requisito, la desviación estándar en el peso debe ser de dos gra- 
mos. Los pesos de 25 recipientes seleccionados al azar dieron como resultado una des- 
viación estándar de 2.8 gramos. 

a) Si los pesos se encuentran normalmente distribuidos, determinar si la varianza de 
éstos es diferente del valor necesario. Empléese a = 0,02. 



Ejercicios 361 

b) ¿Para qué valores de la varianza muestral no puede rechazarse la hipótesis nula del 
inciso di ¿Se encuentran estos valores equidistantes del valor necesario de la varian- 
za? ¿Cómo deberían ser? Coméntese. 

9.44. Considérense los datos del ejercicio 9.32. Para un nivel de a = 0.05 ¿existe alguna 
razón para pensar que las varianzas no son iguales? 

9.45. Un inversionista desea comparar los riesgos asociados con dos diferentes mercados, A y 
B. El riesgo de un mercado dado se mide por la variación en los cambios diarios de pre- 
cios. El inversionista piensa que el riesgo asociado con el mercado B es mayor que el del 
mercado A. Se obtienen muestras aleatorias de 21 cambios de precio diarios para el mer- 
cado A y de 16 para el mercado B. Se obtienen los siguientes resultados: 

Mercado A Mercado B 



jt a = 0.3 x B = 0.4 

j A = 0.25 í„ = 0.45 



a) Si se supone que las muestras provienen de dos poblaciones normales e independien- 
tes a un nivel de a = 0.05 ¿encuentra apoyo la creencia del inversionista? 

b) Si la varianza muestral de A es la dada, ¿cuál es el máximo valor de la varianza 
muestral de B con base en n = 1 6 que no llevará al rechazo de la hipótesis nula del in- 
ciso al 

9.46. Para el ejercicio 9.33, ¿puede apoyarse la opinión de que la variación en el número de artícu- 
los terminados para el operador 2 es menor que para el operador 1 a un nivel a = 0.05? 

9.47. En un estudio reciente que abarcó 25 años, se investigó la posible protección que pro- 
porciona la ingestión de una forma de vitamina A llamada caroteno contra el desarrollo 
del cáncer pulmonar. Se encontró que de 488 hombres que habían ingerido una baja 
cantidad de esta sustancia durante este tiempo, 14 desarrollaron cáncer pulmonar, pero 
en un grupa del mismo tamaño en el que el consumo de caroteno era mayor, sólo dos 
personas desarrollaron cáncer. Bajo las suposiciones apropiadas, ¿puede concluirse que 
la ingestión de caroteno reduce el riesgo de desarrollar cáncer pulmonar en los hombres? 
Empléese a - 0.01. ¿Cuál es el valor de p? Desde un punto de vista estadístico, ¿qué 
consejo se podría dar al investigador médico que se interesa en un proyecto como éste? 

9.48. Para el ejercicio 9.47, determinar un intervalo de confianza estimado del 99Vo para la 
verdadera diferencia entre las dos proporciones. 

9.49. Un economista al servicio de una agencia estatal desea determinar si la frecuencia de de- 
sempleo en dos grandes áreas urbanas del estado son diferentes. Con base en muestras 
aleatorias de cada ciudad, cada una de 500 personas, el economista encuentra 35 perso- 
nas desempleadas en un área y 25 en la otra. Bajo las suposiciones adecuadas y con un 
nivel a = 0.05 ¿existe alguna razón para creer que las frecuencias de desempleo en las 
dos áreas son diferentes? ¿Cuál es el valor de /?? 

9.50. Un usuario de grandes cantidades de componentes aléctricos adquiere éstos principal- 
mente de dos proveedores, A y B. Debido a una mejor estructura en precios, el usuario 
hará negocio únicamente con el proveedor B si la proporción de artículos defectuosos 
para A y para B es la misma. De dos grandes lotes, el usuario selecciona al azar 125 uni- 
dades de A y 100 unidades de B; inspecciona las unidades y encuentra siete y siete 
unidades defectuosas, respectivamente. Bajo las suposiciones adecuadas y con base en esta 
información, ¿existe alguna razón para no comprar en forma única las componentes del 
proveedor B? Empléese a = 0.02. 



CAPITULO DIEZ 



Pruebas de bondad de ajuste 
y análisis de tablas 
de contingencia 



10.1 Introducción 

Recuérdese que una hipótesis estadística es una afirmación con respecto a una carac- 
terística que se desconoce de una población de interés. En el capítulo 9 fue, en forma 
exclusiva, el valor de algún parámetro 6. En este capítulo se examinarán las pruebas 
de hipótesis estadísticas en las que la característica que se desconoce es alguna pro- 
piedad de la forma funcional de la distribución que se muestrea. Además, se discuti- 
rán las pruebas de indépendiencia entre dos variables aleatorias en las cuales la evi- 
dencia muestral se obtiene mediante la clasificación de cada variable aleatoria en un 
cierto número de categorías. 

En forma tradicional, este tipo de prueba recibe el nombre de bondad del ajuste 
ya que ésta compara los resultados de una muestra aleatoria con aquéllos que se es- 
pera observar si la hipótesis nula es correcta. La comparación se hace mediante la 
clasificación de los datos que se observan en cierto número de categorías y entonces 
comparando las frecuencias observadas con las esperadas para cada categoría. Para 
un tamaño específico del error de tipo I, la hipótesis nula será rechazada si existe una 
diferencia suficiente entre las frecuencias observadas y las esperadas. 

Vale la pena notar que para situaciones de este tipo la hipótesis alternativa es 
compuesta y, en muchas ocasiones, no se encuentra identificada en forma explícita. 
El resultado es que la función de potencia es muy difícil de obtener en forma analíti- 
ca. En consecuencia, una prueba de bondad de ajuste no debe usarse por sí misma 
para aceptar la afirmación de la hipótesis nula. La decisión es no rechazar H (más 
que aceptarla) si la diferencia que existe entre las frecuencias observadas y esperadas 
es, en forma relativa, pequeña. 



10.2 La prueba de bondad de ajuste chi-cuadrada 363 

10.2 La prueba de bondad de ajuste chi-cuadrada < .. 

Una prueba de bondad de ajuste se emplea para decidir cuándo un conjunto de 
datos se apega a una distribución de probabilidad dada. Considérese una muestra 
aleatoria de tamaño n de la distribución de una variable aleatoria X dividida en k 
clases exhaustivas y mutuamente excluyentes, y sea N¡, i = 1, 2, ..., k, el número 
de observaciones en la /-ésima clase. Considérese la verificación de la hipótesis nula 

H : F(x) = F (x), (10.1) 

en donde el modelo de probabilidad propuesto F (x) se encuentra especificado, de 
manera completa, con respecto a todos los parámetros. De esta forma la hipótesis 
nula es sencilla. Dado que se especifica F (x) de manera completa, se puede obtener 
la probabilidad p, de obtener una observación en la /-ésima clase bajo H , en donde 
necesariamente 2* = x p¡ = 1 . 

Sea n, la realización de N¡ para / = 1, 2 ... k de manera tal q-s 2*. i n¡ = n. La 
probabilidad de tener, de manera exacta, n, observaciones en la /-ésima clase es p? 
para / = 1,2...*. Dado que existen k categorías mutuamente excluyentes con pro- 
babilidades P\, p 2 , .., Pk> entonces bajo la hipótesis nula la probabilidad de la 
muestra agrupada es igual a la función de probabilidad de una distribución multino- 
mial determinada (6.3). 

Para deducir una prueba estadística adecuada para H , considérese el caso en el 
que k = 2. Este es la distribución binomial con una función de probabilidad dada 
por (4.1) y en la que x = «,, p = p¡, n ~ x = « : ,yl - p = p 2 ■ Considérese 
la variable aleatoria estandarizada 

= N, - np x 



V«Pid - P\) 

Del capítulo 5, recuérdese que para un valor de n suficientemente grande, la distri- 
bución de Y es aproximadamente igual a la normal estándar. Además, del ejemplo 
5. 14 se sabe que el cuadrado de una variable aleatoria normal estándar tiene una dis- 
tribución chi-cuadrada con un grado de libertad. Entonces, la estadística 

(N, - n Pi ) 2 _ (N, - n Pl ) 2 (N, - np,) 2 



/!/?,(! -/?,) np x np 2 



(N, - n Pl ) 2 [n - N 2 - n{\ -p 2 )f 
np | np 2 

(N, - np,) 2 (N 2 - np 2 ) 2 



E 



np , np 2 

(Nj - np,) 1 
np, 



tiene aproximadamente una distribución chi-cuadrada con un grado de libertad con- 
forme n va tomando valores cada vez más grandes. 



364 Pruebas de bondad de ajuste y análisis de tablas de contingencia 

Si se sigue este tipo de razonamiento, puede demostrarse que para k s* 2 catego- 
rías distintas, la estadística 

Í (Ni - npf . (10.2) 

,= ■ «Pi 

tiene una distribución, en forma aproximada, chi-cuadrada con k - 1 grados de li- 
bertad, si n tiene un valor suficientemente grande. Nótese que N, es la frecuencia 
observada en la z'-ésima clase, y np¡ es la frecuencia correspondiente que se esperaba 
bajo la hipótesis nula. De acuerdo con lo anterior, la estadística es la suma sobre 
todas las k clases de los cocientes de los cuadrados de las diferencias entre las fre- 
cuencias observada y esperada, y la frecuencia esperada. La estadística dada por 
(10.2) recibe el nombre de prueba de bondad de ajuste chi-cuadrada de Pearson. Si 
existe una concordancia perfecta entre las frecuencias que se observaban y las que se 
esperaban, la estadística tendrá un valor igual a cero: po r otro lado, si existe gran dis- 
crepancia entre estas frecuencias, la estadística tomará un valor muy grande. Por 
ello se desprende que para un tamaño dado del error de tipo I, la región crítica es el 
extremo superior de una distribución chi-cuadrada con k - 1 grados de libertad. 

Ejemplo 10.1 El gerente de una planta industrial pretende determinar si el número 
de empleados que asisten al consultorio médico de la planta se encuentra distribui- 
do, en forma equitativa, durante los cinco días de trabajo de la semana. Con base en 
una muestra aleatoria de cuatro semanas completas de trabajo, se observó el siguien- 
te número de consultas: 

Lunes Martes Miércoles Jueves Viernes 

49 35 32 39 45 

Con a = 0.05, ¿existe alguna razón para creer que el número de empleados que 
asisten al consultorio médico, no se encuentra distribuido en forma equitativa du- 
rante los días de trabajo de la semana? 

Una distribución uniforme implicaría que las proporciones para cada día de la 
semana sean iguales. Por lo tanto, deberá probarse la hipótesis nula 

H : Pi = 0.2, i = 1,2, ...,5. 

Dado que el tamaño de la muestra es n = 200, la frecuencia esperada para cada día 
es np¡ = 40. Entonces, el valor de la estadística de prueba es 

, (49 - 40) : (35 - 40) : (32 - 40) 2 (39 - 40) 2 (45 - 40) 2 

X" = tz + + + + = 4.9. 

40 40 40 40 40 

Para k = 5 clases, se observa que el valor crítico es Xo .95. 4 = 9.49. Ya que x~ = 4.9 
< X0.95. 4 = 9.49, no puede rechazarse la hipótesis nula. Con base en esta eviden- 
cia, no existe ninguna razón para creer que el número de empleados que acuden al 



10.2 La prueba de bondad de ajuste chi-cuadrada 365 

consultorio no se encuentre distribuido en forma uniforme a lo largo de la semana 
de trabajo. 

Una ventaja de la prueba de bondad de ajuste chi-cuadrada es que para valores 
grandes de n, la distribución limite chi-cuadrada de la estadística, es independiente a 
la forma de la distribución propuesta F^x) bajo H . Como resultado se tiene que la 
prueba de bondad de ajuste chi-cuadrada también se emplea en situaciones en las 
que F 0r) es continua. Sin embargo, debe hacerse énfasis en que la naturaleza de la 
prueba de bondad de ajuste chi-cuadrada es discreta en el sentido en el que ésta com- 
para las frecuencias que se observan y se esperan para un número finito de catego- 
rías. De acuerdo con lo anterior, si F (x) es continua, la prueba no compara las fre- 
cuencias que se observan alisadas con la función de densidad propuesta tal como lo 
implica la hipótesis nula. Más bien, la comparación se lleva a cabo aproximando la 
distribución continua bajo H con un número finito de intervalo de clase. A pesar 
de esta limitación, la prueba de bondad de ajuste chi-cuadrada es un procedimiento 
razonablemente adecuado para probar suposiciones de normalidad siempre y cuan- 
do el tamaño de la muestra sea, en forma moderada, grande. Con respecto a la pre- 
gunta de qué tan grande debe ser el tamaño de la muestra, se ha encontrado que con 
n igual a cinco veces el número de clases, los resultados son aceptables. Una regla 
conservadora a seguir es el seleccionar un muestra de manera tal que toda frecuencia 
esperada no sea menor que cinco. Lo anterior puede lograrse combinando clases ve- 
cinas pero, para cada par de clases que se combina, el número de grados de libertad 
debe reducirse en uno. 

A menos que pueda especificarse una hipótesis alternativa que consista en un mo- 
delo alternativo F/xJ particular, la potencia de la prueba de bondad de ajuste chi- 
cuadrada es muy difícil de determinar en forma analítica. Sin embargo, puede de- 
mostrarse que la potencia tiende a 1 conforme n tiende a =». Este resultado implica 
que para muestras de gran tamaño es casi seguro el rechazar la hipótesis nula debido 
a que es muy difícil especificar una //„ lo suficientemente cercana a la verdadera dis- 
tribución. De esta forma, la aplicabilidad de la prueba de bondad de ajuste chi- 
cuadrada es cuestionable cuando se tienen muestras de tamaño muy grande. 

Ejemplo 10.2 En la tabla 5.2 se proporcionan los datos que se agrupan para el nú- 
mero de respuestas correctas para la prueba SAT de matemáticas, de los alumnos del 
tercer año de preparatoria. Recuérdese que en el ejemplo 5.5 se compararon las fre- 
cuencias que se observaron con las que se esperaron, en donde estas últimas se obtu- 
vieron con base en una distribución normal con media 491 y desviación estándar 
igual a 120. Con base en la prueba de bondad de ajuste chi-cuadrada, ¿existe alguna 
razón para creer que el número de respuestas correctas para la prueba de matemáti- 
cas SAT no se encuentran distribuidas normalmente con media 491 y desviación es- 
tándar igual a 120 a un nivel de a = 0.01? 

Considérese la prueba de la siguiente hipótesis nula 

H :F(x) = F (x), 

en donde F (x) es el modelo de probabilidad normal con media 491 y desviación es- 
tándar 120. Bajo la hipótesis nula, las frecuencias esperadas para las 12 clases se 



366 Pruebas de bondad de ajuste y análisis de tablas de contingencia 

encuentran en la última columna de la tabla 5.2. Éstas se determinaron primero con- 
virtiendo cada intervalo de cada clase al correspondiente intervalo normal estándar, 
empleando para esto m = 491 ver = 120. Después se determinó la probabilidad de 
cada intervalo bajo H . Finalmente, para cada clase.el valor de probabilidad se mul- 
tiplicó por el tamaño de la muestra n = 478 193 para obtener la frecuencia esperada. 
Nótese que las probabilidades que aparecen en la penúltima columna de la tabla 5.2 
no suman uno. Pero bajo la hipótesis nula las clases deben ser exhaustivas, de mane- 
ra tal que 2* = , p¡ = 1 . Lo anterior puede lograrse mediante el ajuste de las clases 
primera y última de manera tal que la primera no tenga límite inferior y la última no 
tenga límite superior. Dado que bajo H , X ~ N(49l , 120), 

P{X « 250) = P{Z =s -2.01) = 0.0222, 

y la frecuencia modificada para la primera clase es (478 193) (0.0222) = 10 615.88. 
De manera similar para la última clase 

P(X 3* 750) = P(Z s* 2.16) = 0.0154, 

lo cual da como resultado una frecuencia esperada de 7 364.17. 
Con base en las 12 clases, el valor de la estadística chi-cuadrada es 

', _ (3 423 - 10 615.88) 2 (18 434 - 16 I15.10) 2 (6 414 - 7 364.I7) 2 

} ~ 10615.88 + 16 115.10 7 364.17 

= 13 067.02, 

el cual se encuentra, en forma clara, más allá del valor crítico xV». h = 24.75. De 
acuerdo con lo anterior, la hipótesis nula de que el número de respuestas correctas 
para la prueba SAT se encuentra normalmente distribuido con media 491 y desvia- 
ción estándar de 120, debe rechazarse. Este ejemplo ilustra el comentario formulado 
con anterioridad con respecto a muestras de gran tamaño, en donde la hipótesis nula 
casi seguramente resulta rechazada. 

Recuérdese que la hipótesis nula dada por (10. 1) es simple ya que el modelo de pro- 
babilidad propuesto F (x) se especificó de manera completa con respecto a todos 
sus parámetros. Sin embargo, para muchas aplicaciones que toman en cuenta la 
bondad del ajuste, sólo puede especificarse la forma de F u (x). Por ejemplo, supón- 
gase que se desea probar la hipótesis nula de que un conjunto de observaciones de 
una medida de interés X se ajustan a una distribución normal, pero no puede especi- 
ficarse el valor de la media o el de la variaza. Lo anterior da como resultado que la 
hipótesis nula 

//„: FXx) = F„(.v) 

es compuesta. En consecuencia, se tiene que las frecuencias esperadas np¡ para las / 
= 1, 2 ... k clases no pueden determinarse, ya que éstas son funciones de los pará- 
metros desconocidos de F (x). 

Supóngase que T es una estadística para un parámetro desconocido 8 de F u (x). 
En el contexto de la prueba de bondad de ajuste, tanto las frecuencias observables 



10.2 La prueba de bondad de ajuste chi-cuadrada 367 

N¡ como las frecuencias esperadas np,(T) son variables aleatorias, en donde p¡(T) 
indica que las probabilidades bajo la hipótesis nula son funciones de la estadística T 
de 6. Puede demostrarse que si para cualquier parámetro desconocido 6 la estadísti- 
ca T es el estimador de máxima verosimilitud de 0, y si las frecuencias esperadas se 
determinan como funciones de los estimadores de máxima verosimilitud, entonces 

í w - 7j; r "' 00.3, 

tiene aproximadamente una distribución chi-cuadrada con k - 1 - r grados de liber- 
tad, para valores de n grandes, en donde r es el número de parámetros que se está 
tratando de estimar. 

Al igual que en el caso previo en el que se tenía una //„, sencilla, la región crítica 
es el extremo superior de la distribución chi-cuadrada. Pero, a diferencia del caso 
anterior, el numere ie grados de libertad se reduce por una cantidad igual al número 
de parámetros que se están estimando. Como consecuencia, existe un corrimiento 
hacia la izquierda en el valor crítico para el mismo tamaño del error de tipo I, y la hi- 
pótesis nula puede rechazarse para un valor observado más pequeño de (10.3) que en 
el caso previo. Lo anterior es lógico ya que el ajuste deberá ser mejor debido a que 
los parámetros desconocidos se estiman con base en las observaciones de la muestra. 

Las características importantes para la aplicación de la prueba de bondad de 
ajuste chi-cuadrada para el caso compuesto son idénticas a las que tienen para la hi- 
pótesis nula simple. Surge un problema relativamente pequeño al decidir si los pará- 
metros desconocidos deberán estimarse con base en los datos que se agruparon en 
les que no. En forma teórica, ninguno de los dos enfoques puede ser el correcto de- 
bido a que los estimados de máxima verosimilitud deben obtenerse maximizando la 
función de verosimilitud con base en la distribución multinomial. En forma afortu- 
nada, resulta que la mayoría de las veces el error que se comete no es serio. De esta 
forma, se pueden utilizar los estimados de máxima verosimilitud obtenidos, ya sea 
de los datos agrupados o de los no agrupados, en forma segura. 

Ejemplo 10.3 Recuérdese el ejemplo 4.5 en el que se compararon el número de 
anotaciones de seis puntos por equipo y por juego en la NFL con el número que es- 
peraban de éstos, si el número de anotaciones de seis puntos tiene una distribución 
de Poisson. Con base en la información contenida en la tabla 4.3, ¿existe alguna 
razón para creer, a un nivel de 0.05, que el número de anotaciones no es variable 
aleatoria de Poisson? 

Dado que el valor del parámetro de Poisson X no se especifica, el estimado de 
máxima verosimilitud de A con base en la información que se proporcionó en la 
tabla 4.3 es X = 2.435 . Bajo la hipótesis nula de una distribución de Poisson, la pro- 
babilidad de tener cero anotaciones es 

P(0) = (2.435)°exp(-2.435)/0! = 0.0876. 
Para n = 448, el número esperado de cero anotaciones es (448)(0.0876) = 39.24. Si 
se sigue este procedimiento, pueden obtenerse las demás frecuencias esperadas. En 
la tabla 10.1, se presenta el cálculo de la estadística chi-cuadrada. 



368 Pruebas de bondad de ajuste y análisis de labias de contingencia 
TABLA 10.1 Cálculo de la estadística chi-cuadrada para el ejemplo 10.3 



Número de 


Frecuencia 


Frecuencia 


[n¡-/ip,(A)] 2 


anotaciones 


observada 


esperada 


np¡(k) 





35 


39.24 


0.458 


1 


99 


95.56 


0.124 


2 


104 


116.34 


1.309 


3 


110 


94.44 


2.564 


4 


62 


57.48 


0.355 


5 


25 


28.00 


0.321 


6 


10 


11.38 


0.167 


7 


3 


5.56 


1.179 


Totales 


448 


448 


6.477 



Para k = 8 categorías y con un parámetro estimado, el número de grados de li- 
bertad es 6. Para a = 0.05 el valor crítico es Xo.95.6 = 12.60. Dado que x 2 = 6.477 
< X0.95. 6 = 12.60, no puede rechazarse la hipótesis nula de que el número de 
anotaciones de seis puntos por equipo en la NFL es una variable aleatoria de Pois- 
son. 



10.3 La estadística de Kolmogorov-Smirnov 

Recuérdese que para aplicar la prueba de bondad de ajuste chi-cuadrada cuando 
el modelo propuesto bajo H es continuo, es necesario aproximar F (x) mediante el 
agrupamiento de los datos observados en un número finito de intervalos de clase. 
Este requisito de agrupar los datos implica tener una muestra de tamaño más o 
menos grande. De esta manera, la prueba de bondad de ajuste chi-cuadrada se en- 
cuentra limitada cuando F ü (x) es continua y la muestra aleatoria disponible tiene un 
tamaño pequeño. Una prueba de bondad de ajuste más apropiada que la chi-cuadra- 
da cuando F (x) es continua, es la basada en la estadística de Kolmogorov-Smirnov. 
La prueba de Kolmogorov-Smirnov no necesita que los datos se encuentren agrupa- 
dos y es aplicable a muestras de tamaño pequeño. Ésta se basa en una comparación 
entre las funciones de distribución acumulativa que se observan en la muestra orde- 
nada y la distribución propuesta bajo la hipótesis nula. Si esta comparación revela 
una diferencia suficientemente grande entre las funciones de distribución muestral y 
propuesta, entonces la hipótesis nula de que la distribución es F (jr), se rechaza. 
Considérese la hipótesis nula por (10.1), en donde F (x) se especifica en forma 

completa. Denótense por A',,,, X a , X ln) a las observaciones ordenadas de una 

muestra aleatoria de tamaño n y defínase la función de distribución acumulati- 
va muestral como 



SM = 



x < jr (() , 



k/n x U) ^x<x (k+u , (10.4) 

I x & x„ . 



i 



10.3 La estadística de Kolmogorov-Smirnov 369 

En otras palabras, para cualquier valor ordenado x de la muestra aleatoria, S„(x) es la 
proporción del número de valores en la muestra que son iguales o menores a x. Ya 
que F (x) se encuentra completamente especificada, es posible evaluar a F (x) para 
algún valor deseado de x, y entonces comparar este último con el valor correspon- 
diente de S„(x). Si la hipótesis nula es verdadera, entonces es lógico esperar que la 
diferencia sea relativamente pequeña. La estadística de Kolmogorov-Smirnov se de- 
fine como 

D n = mkx[S n (x)- F (x)\. (10.5) 

X 

La estadística D n tiene una distribución que es independiente del modelo pro- 
puesto bajo la hipótesis nula. Por esta razón, se dice D n es una estadística indepen- 
diente de la distribución. Lo anterior da como resultado que la función de distribu- 
ción de D n pueda evaluarse sólo en función del tamaño de la muestra y después usarse 
para cualquier F (x). En la tabla J del apéndice, se proporcionan los valon*<: canti- 
les superiores de D n para varios tamaños de la muestra. El lector debe notar que los 
valores asintóticos de d n que se encuentran en la parte inferior de la tabla propor- 
cion?n una adecuada aproximación para valores de n mayores de 50. 

Para un tamaño a del error de tipo I, la región crítica es de la forma 

De acuerdo con lo anterior, la hipótesis H se rechaza si para algún valor x observa- 
do el valor de D n se encuentra dentro de la región crítica de tamaño a. 

Como se hizo notar anteriormente, la estadística de Kolmogorov-Smirnov es, en 
general, superior a la prueba de bondad de ajuste chi-cuadrada cuando los datos in- 
volucran una variable aleatoria continua, debido a que no es necesario agrupar los 
datos. Además, la prueba de Kolmogorov-Smirnov tiene la atractiva propiedad de 
ser aplicable a muestras de tamaño pequeño. Por otro lado, la estadística se encuen- 
tra limitada, ya que el modelo propuesto bajo// debe especificarse en forma com- 
pleta. La estadística de Kolmogorov-Smirnov no se aplica a todos aquellos casos 
para los que las observaciones no son inherentemente cuantitativas a consecuencia 
de las ambigüedades que pueden surgir cuando se ordenan las observaciones. 

Ejemplo 10.4 A continuación se proporcionan los valores ordenados de una 
muestra aleatoria del número de respuestas correctas para la SAT que se aplicó a 
todos los estudiantes que ingresaron a una universidad: 852, 875, 910, 933, 957, 
963, 981, 998, 1007. 1010, 1015, 1018, 1023, 1035, 1048, 1063. En años anterio- 
res, el número de respuestas correctas estaba representado, en forma adecuada, por 
una distribución normal con media 985 y desviación estándar 50. Con base en esta 
muestra, ¿existe alguna razón para creer que ha ocurrido un cambio en la distribu- 
ción de respuestas correctas para la prueba SAT en esta universidad? Empléese un 
nivel a = 0.05. 

Sea X la variable aleatoria que representa el número de respuestas correctas para 
'a prueba SAT. Considérese la prueba de la siguiente hipótesis nula 



370 Pruebas de bondad de ajuste y análisis de tablas de contingencia 

H : F(x) = F (x), 

donde F (x) es la función de distribución normal con media 985 y desviación están- 
dar 50. Dado que X es una variable aleatoria continua y el tamaño de la muestra de 
A" es pequeño, se usará la estadística de Kolmogorov-Smirnov para probar a H . La 
función de distribución muestral se obtiene mediante el empleo de (10.4) para los va- 
lores ordenados. Lo anterior involucra un incremento de 1/6 = 0.0625 al valor pre- 
vio de la distribución muestral. Los valores correspondientes del modelo normal 
propuesto se obtienen estandarizando primero a N(0, 1) y empleando la tabla D del 
apéndice. En la tabla 10.2 se encuentra la información más importante. 

Se observa que la máxima desviación es de 0.1207. De la tabla J del apéndice, el 
valor crítico de D lb para a = 0.05 es 0.328. Dado que 0.1207 < 0.328, no puede 
rechazarse la hipótesis nula. De acuerdo con ello no es posible detectar un cambio en 
la distribución para el número de respuestas correctas de la prueba SAT de la ya es- 
tablecida N(985, 50). 



10.4 La prueba chi-cuadrada para el análisis de tablas de 
contingencia con dos criterios de clasificación 

Muchas veces surge la necesidad de determinar si existe alguna relación entre dos 
rasgos diferentes en los que una población ha sido clasificada y en donde cada rasgo 
se encuentra subdividido en cierto número de categorías. Por ejemplo, ¿existe una 
relación entre el fumar cigarrillos y la predisposición a desarrollar cáncer pulmo- 
nar?, o también ¿existe una relación entre la filiación política y la opinión con res- 
pecto a incrementar el presupuesto armamentista? En ambos ejemplos, se ha clasifi- 
cado a la población en dos características y en donde se supone que cada una de 



TABLA 10.2 Cálculo de la estadística de Kolmogorov-Smirnov para el ejemplo 10.4 

Valores ordenados S„(x) F a (x) \S„(x) - F (x)\ 

852 0.0625 0.0039 0.0586 

875 0.1250 0.0139 0.1111 

910 0.1875 0.0668 0.1207 

933 0.2500 0.1492 0.1008 

957 0.3125 0.2877 0.0248 

963 0.3750 0.3300 0.0450 

981 0.4375 0.4681 0.0306 

998 0.5000 0.6026 0.1026 

1007 0.5625 0.6700 0.1075 

1010 0.6250 0.6915 0.0665 

1015 0.6875 0.7257 0.0382 

1018 0.7500 0.7454 0.0046 

1023 0.8125 0.7764 0.0361 

1035 0.8750 0.8413 0.0337 

1048 0.9375 0.8962 0.0413 

1063 1.0000 0.9406 0.0594 



10.4 La prueba chi-cuadrada para el análisis de tablas de contingencia 371 

éstas tiene por lo menos dos categorías exhaustivas y mutuamente excluyentes. En el 
primer ejemplo las dos características son, si se es fumador, y si desarrolla cáncer 
pulmonar. Las categorías para estas dos características podrían ser si se es fumador 
crónico, moderado o no fumador, para la primera, y el si se desarrolla o no cáncer 
pulmonar para la segunda. 

Cuando una muestra aleatoria que se obtiene de una población se clasifica de 
esta manera, el resultado recibe el nombre dé tabla de contingencia con dos criterios 
de clasificación. Esta tabla se forma por las frecuencias relativas que se observaron 
para las dos clasificaciones y sus correspondientes categorías. A pesar de que sólo se 
analizarán tablas de contingencia con dos clasificaciones, es posible analizar tablas 
que contengan más de dos clasificaciones. 

El análisis de una tabla de este tipo supone que las dos clasificaciones son inde- 
pendientes. Esto es, bajo la hipótesis nula de independencia se desea saber si existe 
una diferencia suficiente entre las frecuencias que se observan y las correspondientes 
frecuencias que se esperan, tal que la hipótesis nula se rechace. La prueba chi-cua- 
drada, discutida en la sección 10.2, proporciona los medios apropiados para anali- 
zar este tipo de tablas. 

Sea n una muestra aleatoria de una población que se clasifica de acuerdo con dos 
características A y B, cada una de las cuales contiene un número r y c de categorías, 
respectivamente. Además, sea N¡. el número de observaciones en la categoría (/, j), 
de las características A y B, respectivamente, para i = 1, 2 ... ryj = 1, 2 ... c. En- 
tonces una tabla de contingencia es un arreglo matricial de r x c, dado en la tabla 
10.3, en donde las entradas representan las realizaciones de las variables aleatorias 

N . 

Nótese que el total del /-ésimo renglón es la frecuencia de la /-ésima categoría de 
característica A, sumando sobre todas las categorías de la característica B. De mane- 
ra similar, el total de lay'-ésima columna es la frecuencia observada de la ./-ésima ca- 
tegoría de B sumada sobre todas las categorías de A. Sean 

n¡- = 2 "u i = 1. 2, ..., r, 

r 

n i = 2 n¡j J = '-2, ..., c, 



TABLA 10.3 Tabla de contingencia con dos clasificaciones 





Categorías 


Característica B 






1 


2 




c 


Totales 




1 


"ii 


"12 




"i, 


n, 


Característica 


2 


"21 


«" 




"2c 


"2 


A 
















r 


"rl 


n r2 




"r, 


«r 




Totales 


n., 


"•: 




"•< 


n 



372 Pruebas de bondad de ajuste y análisis de tablas de contingencia 

los símbolos para denotar las sumas de los renglones y de las columnas, respectiva- 
mente, en donde la notación "punto" indica el subscripto sobre el cual se lleva a 
cabo la sumatoria. 

Sea pa la probabilidad de que un objeto seleccionado al azar de una población 
de interés se encuentre en la categoría (i f j) de la tabla de contingencia. Sea p, la pro- 
babilidad (marginal) de que un objeto se encuentre en la categoría / de la característi- 
ca A, y sea p , la probabilidad de que un objeto se encuentre en la categoría/ de la 
característica B. Si las dos características son independientes, la probabilidad con- 
junta debe ser igual al producto de las probabilidades marginales. De esta forma 
puede establecerse la hipótesis nula de la siguiente manera: 

IU Py = PiP, i = 1.2 r; j = 1, 2, ..., c. (10.6) 

Si pueden especificarse las probabilidades marginales p¡. y p¡, entonces, bajo la 
hipótesis nula, la estadística 

¿ ¿ [N " ~ "MJ (10.7) 

tiene en forma aproximada una distribución chi-cuadrada con re - 1 grados de liber- 
tad para valores grandes de n. Sin embargo, la mayoría de las veces pueden no cono- 
cerse los valores de las probabilidades marginales y, de esta forma, se estiman con 
base en la muestra. Afortunadamente, la prueba de bondad de ajuste chi-cuadrada 
permanece como la estadística apropiada para probar (10.6), siempre que se empleen 
los estimados de máxima verosimilitud y se reste un grado de libertad del total para 
cada parámetro que se esté estimando. Dado que £'= \P-,. = \ y £j = , p.¡ = 1 , existen r 
- 1 parámetros de renglón y c - 1 de columna a ser estimados. De esta forma, el nú- 
mero de grados de libertad será re - I - (r - !)-(£■- 1) = re - r - i ■ + 
! = (/■- IKc - 1). 

Puede demostrarse que los estimados de máxima verosimilitud de/? r y pj están 
dados por 

p, = n-Jn, (10.8) 

y 

p, = ajn, (10.9) 

respectivamente. Al sustituir (10.8) y (10.9) en (10.7), se obtiene la estadística 



n J 



Ni 
22- — . (10.10) 

n 

que para valores grandes de n es, en forma aproximada, una variable aleatoria chi-cua- 
drada con (r - 1) x (c - 1) grados de libertad. 



10.4 La prueba chi-cuadrada para el análisis de tablas de contingencia 373 

Ejemplo 10.5 Una compañía evalúa una propuesta para fusionarse con una corpo- 
ración. El consejo de directores desea muestrear la opinión de los accionistas para 
determinar si ésta es independiente del número de acciones que cada uno posee. Una 
muestra aleatoria de 250 accionistas proporciona la información que se muestra en 
la tabla 10.4. Con base en esta información, ¿existe alguna razón para dudar de que la 
opinión con respecto a la propuesta es independiente del número de acciones que 
posee el accionista? Úsese a = 0.10. 

La hipótesis nula se establece de la siguiente forma 

H¿- Píj - Pi-P-jf i = 1, 2, 3; 7=1, 2, 3. 

En ésta, p¡j es la probabilidad de que un accionista seleccionado al azar se encuentre 
en la categoría (i, j); p¡. es la probabilidad marginal de que el número de acciones 
que posee un accionista seleccionado al azar se encuentre en la categoría i; y p¡ es la 
probabilidad marginal de que un accionista seleccionado al azar tenga una opinión/ 
Por la expresión (10.10) la frecuencia esperada de la celda (/, j) es el producto del 
total de /-ésimo renglón por el total de lay-ésima columna dividido por el tamaño de 
la muestra n = 250. Por ejemplo, el número esperado de accionistas que están a 
favor de la propuesta y que poseen más de 1 000 acciones, es (95)(100)/250 = 38. 
Al continuar este proceso, se determinan las frecuencias esperadas para cada combi- 
nación. En cada celda de la tabla 10.5, la primera línea representa la frecuencia ob- 
servada, la segunda la frecuencia esperada y la tercera la contribución de cada celda 
al valor de la estadística, de acuerdo con (10.10). 
De esta manera, el valor de la estadística es 



, (38 - 30.4) 2 (29 - 39.52) z 

X 2 = * ~ + r^I + 



30.4 



39.52 



(4 - 7.6) 2 
7.6 



= 10.80. 



Dado que r = c = 3, el número de grados de libertad es 4. Para a = 0.1, el 
valor crítico es x 2 o.9. 4 = 7.78. De esta forma, el valor que se observa de la estadís- 
tica de prueba se encuentra dentro de la región crítica, y la hipótesis nula debe recha- 
zarse. De acuerdo con lo anterior, existe una razón para creer que la opinión con res- 
pecto a la propuesta y el número de acciones que cada accionista posee, no son inde- 
pendientes. 



TABLA 10.4 Datos muéstrales para el ejemplo 10.5 



Número de 




Opinión 






acciones 


A favor 


En contra 


indecisos 


Totales 


Menos de 200 
200-1000 
Más de 1000 

Totales 


38 
30 

32 

100 


29 
42 
59 

130 


9 

7 
4 

20 


76 
79 
95 

250 



374 Pruebas de bondad de ajuste y análisis de tablas de contingencia 
TABLA 10.5 Frecuencias esperadas y observadas para el ejemplo 10.S 



Número de acciones 


A favor 


En contra 


Indecisos 


Totales 




38 


29 


9 


76. 


Menos de 200 


30.40 


39.52 


6.08 


76 


i 


1.90 


2.80 


1.40 


6.10 




30 


42 


7 


79 


200-1000 


31.60 


41.08 


6.32 


79 




0.08 


0.02 


0.07 


0.17 




32 


59 


4 


95 


Mas de 1000 


38 


49.40 


7.60 


95 




0.95 


1.87 


1.71 


4.53 




100 


130 


20 


250 


Totales 


100 


130 


20 


250 




2.93 


4.69 


3.18 


10.80 



Referencias 

1. P. G. Hoel, Introduction to mathematical statistics, 4th ed., Wiley, New York, 1971. 

2. B. W. Lindgren, Statistical theory, 3rd ed., Macmillan, New York, 1976. 



Ejercicios 

10.1. Con base en los registros de una tienda de modas, el 50% de los vestidos adquiridos 
por ésta para la temporada se venderán a precio de menudeo, el 25% a un 20% menos 
del precio de menudeo, 15% se venderán después de una reducción en su precio del 
40% y los restantes con una disminución en su precio del 60%. Para esta temporada, se 
adquirieron 300 vestidos y su venta fue en la siguiente forma: 



Precio de venta 20% de 



40% de 



60% de 



140 



90 



30 



40. 



¿Existe alguna razón para creer que la disminución en ventas fue diferente en esta tem- 
porada con respecto a las anteriores? Úsese a = 0.05. ¿Cuál es el valor dep? 

10.2. En un hospital, el número de nacimientos observados para cada mes de cierto año, 
fueron los siguientes: 



Ene Feb Marzo Abril Mayo Jun Julio Ago Sept Oct Nov Dic 



95 105 



95 



105 90 



95 



105 110 105 100 95 100 



Si a = 0.01 , ¿existe alguna razón para creer que el número de nacimientos no se en- 
cuentra distribuido en forma uniforme durante todos los meses del año? ¿Cuál es el 
valor de pl 



Ejercicios 375 

10.3. En el ejercicio 10.2, supóngase que el número de nacimientos que se observaron cada 
mes durante un periodo de 10 años es simplemente igual a diez veces los números ob- 
servados en el ejercicio 10.2 para un año. 

a) ¿Cambiará esto la conclusión del ejercicio 10.2? 

b) ¿Qué puede concluirse con respecto al empleo de prueba de bondad de ajuste chi- 
cüadrada para valores grandes de ni 

10.4. Un fabricante asegura que produce sólo el 5% de unidades defectuosas. Un comprador 
de grandes cantidades de estas unidades selecciona 100 y encuentra diez defectuosas. 

a) Mediante el empleo de la prueba de bondad de ajuste chi-cuadrada, determinar si 
existe una razón para dudar de la afirmación del fabricante. Úsese a = 0.05. 

b) Compárese la respuesta con la parte a, que se obtiene al utilizar el método aproxi- 
mado que se discutió en el capítulo 9 para probar la hipótesis nula de que la verda- 
dera proporción de artículos defectuosos es 0.05. 

c) ¿Existe alguna relación entre los valores de las estadísticas de prueba obtenidos en 
las partes ay bl ¿Existe alguna condición para esta relación? 

10.5. Una organización de seguridad vial desea determinar si el número de accidentes fatales 
se encuentra distribuido de igual forma para el color de los automóviles involucrados 
en los accidentes. La organización obtuvo una muestra aleatoria de 600 accidentes 
automovilísticos en los cuales ocurrió por lo menos una muerte y anotó el color del 
automóvil. Se obtuvo la siguiente información: 

Rojo Café Amarillo Blanco Gris Azul 

75 125 70 80 135 115 

¿Existe alguna razón para creer que las proporciones de color no son idénticas? Úsese 
a = 0.01. 

10.6. Durante un periodo de 30 años se llevó a cabo un estudio médico para determinar, 
entre otras cosas, si los hábitos de fumador pueden influenciar en el desarrollo de la en- 
fermedad cardiaca. Durante este periodo, 160 hombres desarrollaron alguna enferme- 
dad cardiaca. Estos hombres fueron clasificados como fumadores agudos (más de dos 
cajetillas de cigarros al día), fumadores moderados (una a dos cajetillas al día), fuma- 
dores ocasionales (menos de una cajetilla al día) o no fumadores. El número de 
hombres en cada categoría que desarrolló alguna enfermedad cardiaca es el siguiente: 

Fumador Fumador Fumador 
agudo moderado ocasional No fumador 

58 54 36 12 

a) Si se supone que al comienzo del estudio había una cantidad igual de hombres en 
cada una de las cuatro categorías, ¿existe alguna razón a un nivel de a = 0.01 para 
creer que las proporciones en estas categorías no son las mismas? 

b) ¿Cómo se podría prevenir al investigador médico del uso de la prueba de bondad de 
ajuste chi-cuadrada en esta situación? 

10.7. En un proceso de producción se toma una muestra aleatoria diaria de 100 artículos y se 
inspecciona para encontrar artículos defectuosos. Para una semana dada y para los 
cinco días de operación, se observó el siguiente número de unidades defectuosas: 



376 Pruebas de bondad de ajuste y análisis de tablas de contingencia 

Lunes Martes Miércoles Jueves Viernes 

12 7 6 5 10 

Si el porcentaje total de artículos defectuosos es del 8%, ¿puede concluirse que a un 
nivel de a = 0.05 existe una diferencia discernióle en el porcentaje diario de artículos 
defectuosos? 

10.8. Con referencia a los datos del ejercicio 1.1, empleando la prueba de bondad de ajuste 
chi-cuadrada, ¿puede concluirse que los lapsos de tiempo no se encuentran exponen- 
cialmente distribuidos con 8 = 3.2 minutos? Úsese a = 0.01. 

10.9. Considere los datos del ejercicio 1.7. 

a) Para a = 0.05, empléese la prueba de bondad de ajuste chi-cuadrada para probar 
la hipótesis nula de que la distribución del número de anotaciones de seis puntos 
por equipo y por juego en la NFL, es una distribución de Poisson con parámetro 
K = 2.7. 

b) Supóngase que se estima el valor de K a partir de los datos. ¿Cómo podría este cam- 
bio efectuar la respuesta a la parte o? 

10. 10. Úsese la estadística de Kolmogorov-Smirnov en los datos del ejercicio 1 . 1 y compare el 
resultado con el que se obtiene en el ejercicio 10.8. 

10.11. Úsese lá estadística de Kolmogorov-Smirnov para probar la hipótesis nula de que los 
datos del ejercicio 1 .2 se encuentran normalmente distribuidos con media 50 y desvia- 
ción estándar 10. Úsese a = 0.05. 

10.12. Como se notó con anterioridad, una limitación de la estadística de Kolmogorov- 
Smirnov es que debe especificarse el modelo propuesto bajo H u . A pesar de que no se 
encuentra disponible ningún método cuando algunos de los parámetros no se especifi- 
ca, Lilliefors* obtuvo los límites de rechazo a través de un estudio de simulación para 
el problema específico de probar la normalidad. Si la media y la desviación estándar 
muestral se emplean como parámetros de la distribución normal bajo la hipótesis nula, 
la estadística D„ tiene una distribución cuyos cuantiles también obtuvo Lilliefors. De 
manera específica, para a - 0.05 los valores del 95avo, percentil de la distribución 
de esta estadística bajo H fueron los siguientes: 

10 12 14 15 16 18 20 25 >25 



95avo. percentil 



0.258 0.242 0.227 0.220 0.213 0.200 0.190 0.173 0.886/\/n 



Empléese la modificación de Lilliefors a la estadística de Kolmogorov-Smirnov para 
probar la normalidad de los datos del ejercicio 1.2. Compárese el resultado con el del 
ejercicio 10.11. 

10.13. Úsese el procedimiento de la prueba de bondad de ajuste chi-cuadrada para probar la 
hipótesis nula de que los datos del ejercicio 1 .2 se encuentran distribuidos, normalmen- 
te, a un nivel de a = 0.01. 

10.14. Se toma una muestra aleatoria de 25 hombres casados y se les pregunta la edad que 
tenían cuando se casaron. Se obtienen los siguientes datos: 24, 19, 20, 22, 50, 23, 23, 

"On ihe Kolmof:t>mv-Siiiiriii>v icsi f'or noiiiuiHix wiih mean and varíame unknown. J. Amer. Stalistical 
Assoc. 64 (l%7). 399-402. 1967. 



Ejercicios 377 

21, 25, 27, 45, 27, 26, 26, 35, 29, 28, 30, 31, 32, 31, 33, 34, 38, 41. Úsese la estadística 
de Kolmogorov-Smirnov para probar la hipótesis nula de que la distribución de las 
edades de los hombres cuando contrajeron sus primeras nupcias es una distribución 
gama con = 2 y a = 16. Úsese a = 0.05. (Sugerencia: Para calcular las probabili- 
dades gama, véase una tabla de la función gama incompleta determinada por (5.55).) 

10.15. En el ejemplo 4. 10, úsese la prueba de bondad de ajuste chi-cuadrada para demostrar 
que la hipótesis nula de una distribución binomiaí negativa para el número de anota- 
ciones de seis puntos, no puede ser rechazada a un nivel a = 0.05. 

10. 16. Con la prueba de bondad de ajuste chi-cuadrada determínese si la hipótesis nula de los 
datos del accidente del ejercicio 8.14 sigue una distribución binomiaí negativa, que se 
puede remitir al nivel a = 0.05 

10.17. Los totales de los renglones y columnas de una tabla de contingencia de dos caracterís- 
ticas son los siguientes: 

10 
12 
15 



14 10 



37 



Bajo la hipótesis nula de independencia, determinar la tabla de frecuencias esperadas. 

10. 18. Un proceso de producción emplea cinco máquinas en sus tres operaciones de desplaza- 
miento. Se clasificó una muestra aleatoria de 164 fallas de acuerdo con la máquina y la 
operación de desplazamiento en la que ocurrió la falla, y los resultados se muestran en 
la tabla 10.6. Con base en esta información, ¿existe alguna razón para dudar acerca 
de la independencia entre la operación de desplazamiento y la falla de la máquina? 
Úsese a = 0.01. 

TABLA 10.6 Fallas por máquina y desplazamiento 



Máquinas 
Desplazamiento A¡ B C 



1 10 


12 


8 


14 


8 


2 15 


8 


13 


8 


11 


3 12 


9 


14 


12 


10 



10. 19. Se condujo una encuesta aleatoria entre los ciudadanos en edad de votar para determi- 
nar si existía alguna relación entre la afiliación partidista y la opinión con respecto al 
control de armas. Se obtuvo la información proporcionada en la tabla 10.7. Para a = 
0.01 , ¿existe alguna razón para creer que existe una dependencia entre la opinión y la 
afiliación partidista? 

TABLA 10.7 Filiación partidaria y opiniones sobre el control de armas 
A favor En contra Sin decisión 



Demócratas 


110 


64 


26 


Republicanos 


90 


116 


14 


Independientes 


55 


35 


10 



378 Pruebas de bondad de ajuste y análisis de tablas de contingencia 

10.20. En una muestra aleatoria de recién egresados de la preparatoria se registraron dos ca- 
racterísticas (la calificación promedio y el número de respuestas correctas para la 
prueba SAT). Esta información se clasificó como se muestra en la tabla 10.8 

TABLA 10.8 Calificaciones promedio y número de 
respuestas correctas para la prueba SAT 

Número de respuestas correctas para la prueba SA T 
GPA 900-1100 1100-1300 1300-1500 



>3.5 


50 


65 


38 


3.0-3.5 


78 


72 


42 


2.5-3.0 


97 


80 


25 


2.0-2.5 


105 


25 


18 



a) ¿Existe una dependencia entre el número de respuestas correctas en la prueba SAT 
y el promedio de clasificaciones, discernible estadísticamente a un nivel a = 0.01 ? 

b) ¿Se tiene alguna reserva con respecto a esta clasificación? ¿Se puede pensar en otras 
características que deban considerarse? 

10.21. En un estudio reciente que involucró una muestra aleatoria de 300 accidentes automo- 
vilísticos, se clasificó la información de acuerdo con el tamaño del automóvil. 

Pequeño Mediano Grande 



Por lo menos 

un muerto 42 35 20 

Ningún muerto 78 65 60 

Con estos datos, ¿depende la frecuencia de accidentes del tamaño del automóvil? Úse- 
se a = 0.05. 

10.22. Se llevó a cabo una encuesta con respecto a la preferencia del consumidor para deter- 
minar si existía alguna predilección para tres marcas competitivas (A, B y C) depen- 
diendo de la región geográfica en la que habita el consumidor. Con base en una 
muestra aleatoria de consumidores, se obtuvo la siguiente información para tres distin- 
tas regiones. 

Región 1 Región 2 Región 3 



Marca Á 


40 


52 


25 


Marca B 


52 


70 


35 


Marca C 


68 


78 


60 



Con base en esta información, ¿la preferencia por una determinada marca depende de 
la región geográfica a un nivel a = 0.05? 



CAPÍTULO ONCE 



Métodos para el control de calidad 
y muestreo para aceptación 



11.1 Introducción 

En los últimos años ha aumentado el interés que se tiene, por parte de los producto- 
res así como de los consumidores, en la calidad de los productos manufacturados. 
Un fabricante que desea mantener cierto nivel de calidad en su producto terminado 
debe implantar un procedimiento para detectar cualquier desviación seria del están- 
dar de calidad deseado. En el logro de este fin, las tablas estadísticas de control de 
calidad y el muestreo periódico han demostrado ser medios muy efectivos para 
controlar la calidad de los productos manufacturados. 

Por otro lado, el consumidor desea asegurarse de que el producto que adquiere 
reúne ciertos estándares de calidad. Lo anterior es especialmente cierto si el consu- 
midor, como muchas veces ocurre en la práctica, compra lotes muy grandes de cierto 
producto. En estos casos es necesario establecer un procedimiento para inspeccionar 
una muestra relativamente pequeña del producto proveniente del lote para decidir si 
reúne los estándares de calidad deseados. Un procedimiento de esta naturaleza inclu- 
ye la noción del muestreo para aceptación. 

En este capítulo se analizarán los principios básicos y métodos de las tablas de 
control estadístico y los procedimientos del muestreo para aceptación. El lector debe 
considerar el material de este capítulo sólo como introducción al control estadístico 
de calidad y a los procedimientos del muestreo para aceptación, pero éste debe ser 
útil como antecedente para un estudio posterior. Con este propósito se sugieren las 
referencias [2] y [3]. 



11.2 Tablas de control estadístico 

Una tabla de control estadístico es un procedimiento inferencial basado en un 
muestreo repetitivo para estudiar un proceso. De acuerdo con su creador, W.A. 



380 Métodos para el control de calidad y muestreo para aceptación 

Shewhart, una tabla de control se emplea para definir un estándar de calidad para 
un proceso de fabricación y para determinar si éste se mantiene por el proceso. 

En el desarrollo de tablas de control, el factor clave es la variabilidad en la calidad 
del producto terminado. Para cualquier proceso, es inherente cierta cantidad de va- 
riabilidad en la calidad, sin importar cuántos esfuerzos se encaminen para lograr su 
control. Este tipo de variabilidad es una función de factores aleatorios que, de ma- 
nera común, se encuentran más allá del control. Esta variación aleatoria general- 
mente es aceptable y no compromete en modo alguno el estándar de calidad desea- 
do. La variabilidad también se puede deber a causas no aleatorias o fijas; éstas 
pueden tomar la forma de un mal funcionamiento en una máquina, indiferencia del 
trabajador, variabilidad en la calidad de las materias primas y otras. De esta forma, 
una tabla de control estadístico es el procedimiento inferencial con el cual se decide 
si una desviación observada de la norma deseada se debe sólo al azar o a alguna 
causa fija. Si la decisión es que la variación es aleatoria, entonces se dice que el proce- 
so de interés se encuentra bajo control. De oti^ n.odo, se juzga como fuera de 
control y en este caso lo que se hace, en forma general, es detener el proceso y llevar 
a s cjbo todos Jos esfuerzos necesarios para detectar la causa del problema. 

Dado que la inferencia se basa en la probabilidad, es posible que un proceso se 
juzgue fuera de control cuando, de hecho, se encuentra bajo control o viceversa. Las 
consecuencias de estos errores pueden ser severas; por ejemplo si se declara a un 
proceso como fuera de control, cuando en realidad está bajo control, se tratará de 
determinar una causa inexistente. Por otro lado, si el proceso en realidad está fuera 
de control y se permite que éste continúe, el estándar de calidad deseado no se alcan- 
zará. Debe notarse que estos errores son facsímiles de los errores de tipo I y II anali- 
zados én el capítulo 9. 

S Üsualmente, la determinación de una tabla de control depende de la toma pe- 
riódica de muestras aleatorias de tamaño n del proceso de interés, con lo que se ob- 
tiene; para cada una de éstas, un valor de alguna estadística de importancia como la 
media o la varianza muestral. Por lo tanto, la tabla de control es una gráfica de los 
valores de la estadística observada, contra el número de la muestra o contra el pe- 
riodo durante el cual se obtuvo ésta. La tabla contiene límites de control superior e 
inferior, los cuales constituyen los criterios de decisión para el proceso, es decir, el 
proceso será juzgado como bajo control mientras los valores de la estadística se en- 
cuentren dentro de estos límites. Si un valor de la estadística se encuentra fuera de los 
límites de control, se considerará al proceso como fuera de control. También se en- 
cuentra una línea central que define la norma prescrita para el proceso. 

El usuario decide cuáles deben ser los valores de los límites de control, cuántas veces 
^necesario muestrear, cuál debe ser el tamaño de la muestra que se toma y qué acción 
"¿¿alizar una vez que se juzga al proceso como fuera de control. Sin embargo, existen 
algunos principios generales que el usuario puede seguir. Shewhart argumentaba que 
podía alcanzarse un balance apropiado entre el costo del muestreo y la exactitud del 
estimador, si las muestras tienen un tamaño de cuatro o cinco observaciones cada 
vez. También los límites de control "tres-sigma" han demostrado ser muy satisfac- 
torios y son los que se emplean en Estados Unidos, así como en muchos otros países. 

Considérense las tablas de control para la media y la desviación estándar. La pri- 
mera se conoce como tabla A" y la segunda como tabla 5. Debe notarse que, de ma- 



11.2 Tablas de control estadístico 381 

ñera tradicional, se emplea el rango R para determinar tablas para la variabilidad de 
un proceso debido a su cálculo fácil. Pero es mejor la tabla S, la cual no ofrece nin- 
gún problema de cálculo con los paquetes para computadora disponibles en la ac- 
tualidad. Para la determinación de las tablas Jí y S se supondrá que se muestrea una 
distribución normal; en un caso, se dará por hecho que se conoce el valor de la me- 
dia o el de la variaiiza y, para el otro, que ambos valores son desconocidos. 

11.2.1 Tablas X (media conocida de la población) 

Se puede construir una tabla de control con base en la media muestral cuando la me- 
dición de interés se encuentra normalmente distribuida con media \i y desviación es- 
tándar o o- conocidas. El conocimiento que se tiene sobre juyase puede deber a la 
naturaleza particular del proceso de interés, el cual puede proporcionar la suficiente 
información con respecto a la media y a la desviación estándar. Para este caso, una 
tabla X proporciona el procedimiento inferencial por medio del cual se puede deci- 
dir si la media del proceso es la que se afirma. 

Sea X u X 2 , .., X„ una muesta aleatoria de tamaño n del proceso de interés. 
Dado que por hipótesis X¡ ~ N(n,a), la media muestral es X ~ N((i,o-/\/ri), la 
probabilidad de que lA' - /x| sea menor que 3o-/ V"> es 

P(\X - ¡i\< 3o-/ V") = 0.9974. 

De esta forma, los límites de control tres-sigma son /x ± 3<t/V"> es decir, cuando 
se toma una muestra de tamaño n se calcula y se gráfica un valor de la media 
muestral. Si éste se encuentra dentro de los límites de control //. ± 3o-/ V«. se supone 
que el proceso se encuentra bajo control; de otra forma, está fuera de control. Por lo 
tanto, cada vez que se toma una muestra se está probando la hipótesis nula de que la 
media del proceso es igual a ¡m contra la alternativa de que ha ocurrido un corrimien- 
to en la media del proceso. El rechazo de la hipótesis nula implica que el proceso se 
encuentra fuera de control. 

Ejemplo 11.1 En un proceso de llenado se tiene una máquina que vacía una canti- 
dad promedio de 500 g en cada recipiente, con una desviación estándar de 2 g. Se to- 
man 10 muestras diarias, cada una de cinco recipientes, y se mide el peso de cada re- 
cipiente. Los pesos promedio para las 10 muestras en una semana dada son los si- 
guientes: 



Número de muestra 


i 


2 


3 


4 


5 


Promedio de \á niucsiru 


498.37 


499.49 


501.25 


498.63 


502.97 



Número de mueslr:i 



10 



Promedio de l.i 



t muestra 



500.56 499.23 498.76 501.05 500.27 



Para los límites de control 3a, ¿se encontró el proceso bajo control durante esta se- 
mana? Con estos límites, ¿cuál es la probabilidad de no detectar un corrimiento de 
500 a 503 g en la media? 



382 Métodos para el control de calidad y muestreo para aceptación 

Dado que n = 5, ju. = 500, y o- = 2, los límites de control 3 o- son 500 ±3(2/ \/5) = 
500 ± 2.6833 o (497.3 167 , 502.5833). En la figura 1 1 . 1 se muestra la tabla de control 
para las medias muéstrales. Nótese que la quinta media muestral se encuentra por 
encima del limite superior de control; de esta forma, durante este tiempo el proceso 
se juzgó como fuerade control en relación con el promedio. La probabilidad de ob- 
servar un valor de X fuera de los límites de control, si el proceso se encuentra real- 
mente bajo control, es 

P(\ X - 500 | > 2.6833) = 0.0026. 
La probabilidad de no detectar un corrimiento de 500 a 503 gramos en la media es 



/497.3167 - 503 502.6833 - 503 
/>(497.3I67 < X < 502.6833 fi = 503) = P[ 7= < Z < r 

\ 2/V5 2/V5 

= />(-6.35<Z< -0.35) 
= 0.3632. 



X 










503 








• Límite superior de control = 502.6333 


502 


- 








501 










500 
499 










- 








498 










497 


- 






Límite inferior de control = 497.3167 




I 


1 


1 1 


lililí 



4 5 6 7 

Número de la muestra 



10 



FIGURA 11.1 Tabla X para los datos del ejemplo 11.1 



1 1 1 .2 Tablas de control estadístico 383 

11.2.2 Tablas 5 (desviación estándar conocida de la población) ' 

En muchas ocasiones la variabilidad de un proceso es, por lo menos, tan importante 
como la media de éste; por ejemplo, en la fabricación de instrumentos de precisión, 
mantener la variación en las mediciones a un nivel aceptable es, probablemente, tan 
importante como el promedio. 

Se considerarán las tablas de control parí la variabilidad de un proceso mediante 
el empleo de la desviación estándar de la muestra 



5 = 



2üf,- - X?/(n - 1) 



Los límites de control 3cr son E(S) ± 3 d.e.(S). Para obtener E(S) y VariS), recuérde- 
se de la sección 7.5 que la variable aleatoria 

y (" ~ DS 2 

Y ~ tr 2 

tiene una distribución chi-cuadrada con n - 1 grados de libertad, en donde la fun- 
ción de densidad de probabilidad de y está dada por (7.16). Dado que 

S 2 = *** 



entonces 



S = 



n-V 

<rt n 



Pero 



en donde 



(n - D ,/2 ' 

E{S) = (n-iy /2 E{Yl/2) - 

E(Y ,/2 ) = c¡ y U2 y { "- W2 exp(-y/2)dy, (11.1) 

Jo 



c = 



r[(n - l)/2]2 ( "- ,,/2 " 
En (11.1) sea u = y/2; entonces dy = 2du y 

i E(Y" 2 ) = 2" /2 cí M ( "- 2>/2 exp(-«)í/M = 2" /2 c-nn/2). 
Jo 



Entonces 



£(5 ) = ; T^ñ 2 " /2 cI >/2) 

(n - 1) ' 

2 l/2 n»/2) (1I . 2) 

(/i - i) l/2 r[(« - i)/2i' 



384 Métodos para el control de calidad y muestreo para aceptación 

Es preferible utilizar una notación para el cQntrol.de calidad y escribir 



en donde 



^ 4 ~ (n - iy»r[(n - l)/2Y \ IJ) 



Para la varianza de S, por definición 

Var(S) = E(S 2 ) - £ 2 (5). 
Pero en la sección 7.5 se demostró que E(S 2 ) = o- 2 , en consecuencia 

Var(S) = a- 2 - c 2 <r 2 = o- : (l - c¡), 
o en la notación preferible, 

Vur(S) = do 2 . 
Por lo tanto, d.e.(S) = c 5 o-, y los límites de control 3o- son 

qo- ± 3c\,o-, (11.4) 

en donde c 4 está dada por (11.3) ye, = (1 - c 2 .)' 72 - Nótese que, dado que se supone 
que el valor de o- se conoce, los límites de control sólo son funciones del tamaño de 
cada muestra. En la tabla 11.1 se determinan los valores de c 4 y c 5 para distintos va- 
lores usuales del tamaño n de las muestras. 

Como ilustración, si o- = 2, los límites de control 3o- para la desviación están- 
dar muestral, con base en n = 5, son (0.94)(2) ± (3)(0.3412)(2) o (O, 3.9272). Para 
este ejemplo, en la tabla S el límite inferior de control es cero, la línea central se en- 
cuentra en 1 .88 y el límite superior de control es 3.9272. Para n = 5 y o- = 2, la va- 
riabilidad del proceso se considera bajo control, siempre que el valor de la desviación 
estándar muestral se encuentre dentro de los límites de control ya establecidos. 

11.2.3 Tablas X y S (media y varianza desconocidas de la población) 

Se considerarán las tablas de control para aquellos casos en los que la distribución de 
la población es normal, pero no se conocen los valores de la media y la desviación es- 
tándar. Para esta situación, los límites de control se basan en los valores estimados 
para n y a. 

Dado que no se conoce el valor promedio del proceso, tampoco se conoce la línea 
central de la tabla de control. Si la línea central es un valor estimado basado en un 
gran número de muestras, los límites de control que se obtienen de esta manera de- 

TABLA 11.1 Valores'de c. y c, para tamaños n normales de la muestra 



II 


4 


5 


6 


7 


8 


9 


10 




í'5 


0.9213 
0.3889 


0.9400 
0.3412 


0.9515 
0.3076 


0.9594 
0.2820 


0.9650 
0.2622 


0.9693 
0.2459 


0.9727 
0.2321 














- 






A 



11.2 Tablas de control estadístico 385 

ben considerarse sólo como límites tentativos, ya que quizá se necesite una*modificá t 
ción antes de que se puedan utilizar para medir la calidad de un producto en futuras 
operaciones de producción. Lo anterior significa que los limites de control tentativos 
son apropiados para determinar si las operaciones pasadas de un proceso de produc- 
ción estuvieron bajo control. Para extenderlos a la producción futura, el procedi- 
miento usual es eliminar todos aquellos puntos que se encuentren fuera de los limites 
tentativos de control y recalcular el valor de éstos con base en el resto de la informa- 
ción muestra!. Se continúa este proceso hasta que todos los puntos se encuentren 
dentro de los limites de control, tanto para la tabla X como para S.La razón para este proce- 
dimiento es que los limites de control para la futura producción deben ser funciones de las ob- 
servaciones que se recabaron mientras el proceso de producción estaba bajo control. 

De acuerdo con Shewhart, los límites tentativos de control deben estar basados, 
por lo menos, en 20 muestras, cada una con cuatro o cinco observaciones. Shewhart 
denominó a estas muestras subgrupos racionales. Éstos deben seleccionarse de ma- 
nera tal que cada subgrupo sea prácticamente homogéneo y proporcione la máxima 
oportunidad de variación de un subgrupo a otro. Para un proceso de producción 
esto ¡mplica que las observaciones para un subgrupo deben tomarse en un momento 
que sea diferente al de otro subgrupo. Se emplea un tamaño relativamente pequeño 
de la muestra de cuatro o cinco observaciones, no sólo para mantener el balance 
entre el costo del muestreó y la exactitud del estimado, sino también para dar una 
mínima oportunidad de variación dentro de cada subgrupo. 

Sea m el número de muestras y supóngase que n¡ = n para toda i = 1,2 m . 

Además, sean X¡ y S¡ la media y desviación muestral de la i-ésima muestra. Para to- 
das las m muestras, defínanse las estadísticas. 






i 



S = -2S Í . (11.6) 

Es evidente que E(X) - ll\ de esta forma, el promedio de todas las m muestras en un 
estimador no sesgado de ¡x. De manera similar, 

E(S) = — 2 E(Si) = — (mc 4 ar) = c 4 cr, 
m m 

lo cual sugiere que un estimador de <r es S/c 4 . Los límites tentativos 3o - para la media 
muestral cuando no se conocen los valores de ¡x y o- son 

f±3-^7=, (11.7) 

c 4 \n 

y los correspondientes a la desviación estándar de muestra son 

S ±3^, (11.8) 

en donde los valores de c 4 y c 5 son los ya definidos. 



386 Métodos para el control de calidad y muestreo para aceptación 

Ejemplo 11.2 Los datos en la tabla 1 1 .2 son 20 muestras, cada una con cinco ob- 
servaciones tomadas en intervalos de dos horas, de la resistencia a la tensión en 
libras de un hilo. Para cada muestra se proporcionan los valores de la media y la des- 
viación estándar. Construyanse las tablas de control X y 5 con base en estos datos. 



Al promediar las 20 medias muéstrales se obtiene x = 47. 12, y sise promedian 
las desviaciones estándar muéstrales, se tiene s = 2.326. Para n = 5, c 4 = 0.94 
y c 5 = 0.3412. Entonces, por (11.7) y (11.8), los límites tentativos de control 3o- para 
las medias muéstrales son 



47.12 



(3X2.326) 
(0.94)V5 



= (43.80, 50.44), 



y los límites para las desviaciones estándar muéstrales son 



2.326 



(3)(0.3412)(2.326) 
0.94 



= (0, 4.8589). 



En la figura 1 1.2 se proporcionan las tablas de control. Nótese que la variabili- 
dad del proceso parece estar bajo control, pero la media muestral para la vigésima 
muestra se encuentra fuera de los límites tentativos. Debido a lo anterior, se ob- 
tienen nuevos valores para los límites después de omitir esta muestra. Éstos son 



47.31 ± 



(3X2.368) 
(0.94)V5 



= (43.93, 50.69) 



TABLA 11.2 Datos de la muestra de la resistencia a la tensión de un hilo en libras 



Número de 
















la muestra 






Valores de la muestra 




X 


S 


1 


44 


46 


48 


52 


49 


47.8 


3.03 


2 


44 


47 


49 


46 


44 


46.0 


2.12 


3 


47 


49 


47 


43 


44 


46.0 


2.45 


4 


45 


47 


51 


46 


48 


47.4 


2.30 


5 


44 


41 


50 


46 


50 


46.2 


3.90 


6 


49 


46 


45 


46 


49 


47.0 


1.87 


7 


47 


48 


50 


46 


47 


47.6 


1.52 


8 


49 


46 


51 


48 


46 


48.0 


2.12 


9 


47 


42 


48 


44 


46 


45.4 


2.41 


10 


46 


48 


45 


51 


50 


48.0 


2.55 


11 


45 


47 


51 


48 


46 


47.4 


2.30 


12 


52 


51 


48 


48 


45 


48.8 


2.77 


13 


45 


45 


47 


49 


44 


46.0 


2.00 


14 


46 


47 


43 


48 


45 


45.8 


1.92 


15 


48 


49 


52 


46 


51 


49.2 


2.39 


16 


44 


46 


45 


47 


52 


46.8 


3.11 


17 


48 


50 


47 


46 


49 


48.0 


1.58 


18 


48 


52 


51 


47 


46 


48.8 


2.59 


19 


47 


51 


50 


46 


49 


48.6 


2.07 


20 


44 


43 


42 


43 


46 


43.6 


1.52 



11.2 Tablas de control estadístico 3Kh 



X 

: v 

■_ 48 
46 
44 



-rifo 



Límite tentativo superior '= 50.44 e ^' jJ "< íi ' 




J — I I I I I 



Límite tentativo inferior = 43.80 

J I I I I I I I I I I I I 

20 



10 



15 







Número de la muestra 


s 

4 


1 


Límite tentativo superior = 4.8589 


3 


-\J 


y — ^y\ y\ Av 


2 




\y ^y Y\ 


1 


111 1 1 


Límite tentativo inferior = 
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 



10 
Número de la muestra 



15 



20 



FIGURA 11.2 Tablas X y S para los datos del ejemplo 1 1 .2 



para X y los límites 



2.368 



(3)(0.3412)(2.368) 
0.94 



(0 4.9466) 



para S. Se observa que todos los puntos se encuentran dentro de los nuevos límites 
tentativos, tanto en la tabla X, como en la S. 

La construcción de las tablas X y S se basa en la distribución normal. La tabla X 
es, relativamente, insensible a la hipótesis de normalidad debido al teorema del límite 
central. Sin embargo, la tabla S es mucho más sensible a la hipótesis de normalidad. 

Vale la pena mencionar la existencia de la tabla p. La tabla p puede construirse 
cuando sé supone que el muestreo se lleva a cabo sobre una distribución binomial 
con parámetro de proporción p. Los límites de control se obtienen para las propor- 



388 Métodos para el control de calidad y maestreo para aceptación 

ciones de muestra de unidades que caen en una de dos categorías posibles. Para esta 
'situación, lo que generalmente es de interés, es vigilar la proporción de unidades de- 
fectuosas, que produce un proceso de manufactura. 

Para construir los límites de control para las proporciones muéstrales, supóngase 
que no se conoce el valor de/?. Sea m el número de muestras disponible, y X¡ el núme- 
ro de unidades defectuosas en la /-ésima muestra de tamaño n. Entonces X¡/n..es un 
estimador de p basado en la /-ésima muestra, y P = ( 1 /mn) S"i , X, es un estima- 
dor de/; basado en todas las m muestras. De acuerdo con lo anterior, los limites ten- 
tativos 3cr para las proporciones muéstrales XJn son 



3 P(\ - P) ()L9) 



11.3 Procedimieníos del muestreo para aceptación 

Un consumidor puede escoger uno de los tres caminos siguientes para verificar la ca- 
lidad de los artículos de un embarque que ha recibido: inspeccionar todos los 
artículos en el lote; inspeccionarlos en una muestra aleatoria proveniente del lote, o 
aceptar el lote sin llevar a cabo ninguna inspección. La primera opción tiene general- 
mente un precio prohibitivo y la última es poco probable que sea aceptada por un 
consumidor serio, con respecto a la calidad de los artículos que adquiere. Por lo 
tanto, la opción que tiene un balance adecuado entre el costo de la inspección y el 
que implica aceptar un lote y usar artículos defectuosos, es la de inspeccionar los 
artículos en una muestra aleatoria proveniente del lote que se acaba de adquirir. Con 
base en el proceso de inspección, la decisión usual es aceptar el lote, rechazarlo o to- 
mar otra muestra aleatoria. Si la decisión de aceptar o rechazar se toma con base en 
los valores medidos de los artículos, con respecto a una medición física continua, en- 
tonces se dice que la inspección se lleva a cabo por variables. Si los artículos que se 
inspeccionan se clasifican como defectuosos o no defectuosos, y el lote se acepta o 
rechaza con base en el número de artículos defectuosos en la muestra, se dice que la 
inspección se lleva a cabo por características. 

En esta sección se considerarán los fundamentos para desarrollar planes sencillos 
de muestreo con base en características para decidir si se acepta o se rechaza un lote. 
Posteriormente se examinará en forma breve el muestreo para aceptación por va- 
riables. Sea N el tamaño del lote. Entonces un plan básico de muestreo para acepta- 
ción es seleccionar n artículos del lote de tamaño N y aceptar el lote si el número de 
artículos defectuosos en la muestra es menor o igual a un número de aceptación c, 
previamente estipulado. De otra forma, el lote se rechaza. Por ejemplo, un plan de 
muestreo puede definirse de la siguiente forma N = 10 000, n = 100, y c = I. 
Lo anterior significa que se seleccionarán, en forma aleatoria, 100 artículos de los 
10 000 que contiene el lote, y si se encuentra cuando mucho un artículo defectuoso, 
se aceptará el lote de N = 10 000 artículos. Si hay más de un artículo defectuoso, el lote será 
rechazado. El consumidor puede escoger entre regresar el lote rechazado al fabricante o so- 
meterlo a una inspección del 100% . El primero constituye lo que se conoce como un procedi- 
miento de inspección no verificable, y el segundo como proceso de inspección verificable. 



11.3 Procedimientos del muestreo para aceptación 389' 

Supóngase que la información disponible para el consumidor con respecto ala 
calidad de los artículos en el lote, es la proporción promedio de artículos defectuosos 
que produce el proceso de manufactura que los fabrica. Un criterio muy importante 
en un plan de muestreo es la probabilidad de aceptar el lote P(A), dada una propor- 
ción de artículos defectuosos p. Bajo las hipótesis adecuadas y para algún valor dep 
y de c, la probabilidad de que el lote sea aceptado con base en una muestra de tama- 
ño n, es la probabilidad binomial acumulativa 

P(A) - P(X^c) = t ("Vil - />)-*, (11.10) 



en donde la variable aleatoria X representa el número de artículos defectuosos en- 
contrados en la muestra. Si np tiene un tamaño moderado, la probabilidad binomial 
dada por (1 1 . 10) se puede aproximar en forma adecuada por la probabilidad acumu- 
lativa de Poisson 

P(A) = ¿^exp(-X), (11.11) 

en donde K = np. 

Una gráfica de la probabilidad de aceptación contra p, es la curva de operación 
característica (CO). Como ilustración se analizará el plan de muestreo n = 100 y c 
= 2. Mediante el empleo de la aproximación de Poisson dada por (11. 1 1) se obtiene 
la probabilidad de aceptar para valores de/7 en un intervalo de 0.01 a 0.09. Las proba- 
bilidades de aceptación se dan en la tabla 1 1 .3 y están graficadas contra p en la figu- 
ra 11.3. 

La naturaleza de una curva CO es afectada por el tamaño, n de la muestra y por el 
número de aceptación c. Como ilustración, considérense los planes de muestreo 
n = 50, c = 1; n = 100, c = 2; y n = 200, e = 4. En la figura 11.4 se 
muestran las curvas CO para estos planes. Nótese que aunque el cociente c a n es 
constante, las curvas CO son algo diferentes. De hecho, las curvas son más sensibles 
al tamaño de la muestra. Conforme n aumenta, la pendiente de la curva se torna más 
pronunciada. De esta forma, para tamaños grandes de la muestra, la probabilidad de 
aceptación disminuye muy rápidamente conforme el valor de p aumenta. Si el valor 
de n es fijo, un aumento en el número de aceptación c tenderá a desplazar a la curva 
hacia la derecha. Esto implica que para unap dada, la probabilidad de aceptación es 
alta conforme c aumenta. En consecuencia, puede pensarse que entre más cercano a 
cero se encuentre el valor de c, mejor es el plan de muestreo. Pero la figura 11.4 indi- 
ca que los planes con valores grandes de c son mejores siempre que el tamaño de la 
muestra sea, apreciablemente, grande. 



TABLA 11.3 Probabilidades de aceptación para el plan de muestreo n - 100, c = 2 



p 


0.01 


0.02 


0.03 


0.04 


0.05 


0.06 


0.07 


0.08 


0.09 


P(A) 


0.9197 


0.6767 


0.4232 


0.2381 


0.1247 


0.0620 


0.0296 


0.0138 


0.0062 



390 Métodos para el control de calidad y muestreo para aceptación 




0.02 0.04 0.06 0.08 p 



FIGURA 11.3 Curva característica de operación para el plan de muestreo n = 100, c = 2 




0.02 0.04 0.06 0.08 0.10 P 



FIGURA 11.4 Curvas características de operación para los tres planes de muestreo 



11.3 Procedimientos del muestreo para aceptación 391, 

El desarrollo de buenos planes de muestreo incluye tanto al productor como al 
comprador del lote. De manera normal el productor es el vendedor y el consumidor 
el comprador. Un productor ciertamente desearía que el consumidor rechazara un 
porcentaje muy pequeño de los lotes vendidos y que son, en general, buenos; el con- 
sumidor desearla aceptar un porcentaje muy pequeño de los lotes que son malos. De 
esta forma los dos experimentan cierto riesgo. Supóngase que ambos están de acuer- 
do én que un lote es aceptable si la proporción de artículos defectuosos es p ,« p, , y 
no aceptable si p 3= p 2 . Se dan las siguientes definiciones que implican riesgos. 

Definición 11.1 El riesgo del productor a es la probabilidad de que el consumidor 
rechace un lote cuya proporción de artículos defectuosos no es mayor que p v 

Definición 11.2 El riesgo del consumidor (3 es la probabilidad de aceptar un lote 
cuya proporción de artículos defectuosos es mayor o igual a P2 . 

Con base en estas definiciones, el riesgo del productor es la probabilidad del 
error de tipo I, dado que éste representa la probabilidad de rechazar un lote acep- 
table. De manera similar, el riesgo del consumidor es la probabilidad del error de 
tipo II, ya que éste representa la probabilidad de equivocarse al no rechazar un lote 
inaceptable. En otras palabras, la situación anterior es análoga a probar la hipótesis 
nula H - p = Pí contra la alternativa H, : p = p 2 . 

Los riesgos del productor y del consumidor pueden representarse por dos puntos 
sobre una curva característica de operación, como se ilustra en la figura 11.5. En 



P(A) 



Punto de riesgo para el productor 
AQL = Pl 




Punto de riesgo para el consumidor 
LTPD = p 2 



FIGURA 11.5 Curva CO para los puntos de riesgo especificados para el productor y el con- 
sumidor 



392 Métodos para el control de calidad y muestreo para aceptación 

este contexto, p x recibe el nombre de nivel aceptable de calidad (NAQ, y p 2 el de to- 
lerancia de la proporción de defectuosos en el lote (TPDL). La práctica usual ha sido 
la de escoger la probabilidad de aceptación P(A) - 1 ■ ■ - a en NAC cercano al puntó 
0.95 de la curva, y la probabilidad de aceptación P(A) = j3 en TPDL cercano al 
punto 0.10 sobre la curva. Entonces, el 95Vo de los lotes que provienen de un proce- 
so cuya proporción de artículos defectuosos se encuentra en NAC, o por encima de 
éste, se aceptará, mientras que sólo el 10% de los que provienen de un proceso cuya 
proporción de artículos defectuosos se encuentra en TPDL o más, será aceptada. 

11.3.1 El desarrollo de planes de muestreo sencillos 

para riesgos estipulados del productor y del consumidor 

Se examinará un procedimiento para obtener planes de muestreo sencillos para valores 
especificados de los riesgos del productor y del consumidor. La esencia del procedi- 
miento está en determinar el tamaño de la muestra n y el número de aceptación c, 
dadas las probabilidades de aceptación en el NAC y el TPDL. Por ejemplo, supón- 
gase que se desea un plan sencillo de muestreo para el que la curva característica de 
operación pasa a través de un riesgo del productor a = 0.05 en un NAC de 0.01 , y 
de un riesgo del consumidor j3 = 0. 1 en un TPDL de 0.05. De esta forma, las pro- 
babilidades de aceptación al NAC = 0.01 y TPDL = 0.05 son 0.95 y 0. 1 , respectiva- 
mente. 

Supóngase que las condiciones son tales, que la distribución de Poisson propor- 
cionará una aproximación adecuada. Sea X la variable aleatoria que representa el 
número de artículos defectuosos en una muestra de tamaño n. Entonces para el ries- 
go del productor, se desea obtener n y c, tales que 

P(A) = P(X^c) = ¿ XrCXP ¡~" X) = 1 -a, (11.12) 

v = X - 

en donde X = np,. De manera similar, para el riesgo del consumidor, se desea ob- 
tener «ye, tales que 

P(A) = P(X^c) = ¿ VeXP !" X) = /3, (11.13) 



en donde ahora X = np r Dado que se conocen los valores de a, ¡3,p t yp 2 , el procesa- 
miento se reduce a la solución simultánea de (11.12) y (11.13) para n ye. No existe 
ningún método directo para resolver estas dos ecuaciones; en otras palabras, es vir- 
tualmente imposible determinar un plan de muestreo cuya curva CO pasa en forma 
exacta a través de dos puntos (p, , I - a) y (p 2 . /3) debido a que los valores de n y 
c deben ser números enteros. Lo que se hace en forma general, es obtener cuatro pla- 
nes, dos de los cuales tendrán el valor dado de a pero diferirán muy poco para el va- 
lor de /3, mientras que los otros dos tendrán el valor de /3 dado, pero diferirán muy 
poco del valor de a. 

Dados a = 0.05, (3 = 0.1, p¡ _= 0.01, y p 2 = 0.05, el procedimiento es el 
siguiente: sea X i = np, y X 3 = np 2 y fórmese el cociente de X 2 a X,. Para el ejem- 



11.3 Procedimientos del muestreo para aceptación 3% 

pío se observa, que el valor de éste es 5. En forma ideal, lo que se busca es obtener 
el valor de c cuando X 2 /X i es exactamente 5. Dado que no es probable tener este va- 
lor de manera precisa, lo que se desea es determinar los dos valores de c que se en- 
cuentran relacionados con el valor de 5. Los'anteríor puede lograrse si se inicia con 
c = y se interpola, para encontrar valores X,, tales que P{A) = 1 - a, y para 
Xj, tales que P(A) = /3, mediante el empleo de la distribución acumulativa de Pois- 
son (tabla B del apéndice). Entonces se aumenta el valor de c, y se continúa el proce- 
so hasta que se encuentren los valores de c que estén relacionados con el cociente 
deseado. Los tamaños correspondientes de las muestras se obtienen, primero, al fi- 
jar la probabilidad de aceptación del riesgo del productor dado, y después al hacer lo 
mismo para el riesgo del consumidor, este procedimiento dará como resultado cua- 
tro planes de muestreo diferentes. 

Dado que /^A) = 0.95 ye =. 0, se obtiene que X, = 0.05. De manera similar, 
para P(A) = 0.1 y c = 0, X 2 tiene un valor de 2.30, y para el cociente X 2 /X, = 46. 
Ahora, para P{A) = 0.95 y c = 1, X, = 0.36, y para P(A) = 0.10, X 2 = 3.9. 
De esta forma X 2 /X| = 10.83. El proceso continúa y se obtienen los resultados que 
se muestran en la tabla 11.4. Los dos valores de c que se relacionan con el cociente 
ideal de 5 son 2 y 3. 

Para obtener n, supóngase que se mantiene el riesgo del productor en a = 0.05. 
Entonces parac = 2, npi = 0.82; pero p, = 0.01 y n = 82. Para el plan n = 82 
y c = 2, la probabilidad de aceptar a un nivel TPDL = 0.05 se obtiene mediante 
X 2 = (82)(0.05) = 4.1. De cuerdo con lo anterior P(A) = P{X « 2) = 0.2238. 

Si se fija el riesgo del consumidor en fi = 0. 1 , entonces para c = 2, np 2 = 5.32, 
y n = 107. Como resultado se tiene que X i = (I07)(0.01) = 1.07, y la probabili- 
dad de aceptar en unNAC = 0.01 es P(A) = P(X « 2) = 0.91. Se pueden es- 
tablecer los otros dos planes si se repite el proceso anterior con c - 3. En la tabla 
1 1 .5 se resumen los cuatro planes; de éstos, el que parece tener la menor importancia 
con respecto al riesgo especificado del consumidor es n = 82 y c = 2. Los otros tres, 
en especial los últimos dos, se encuentran cercanos a los riesgos especificados, tanto 
del productor como del consumidor. La decisión final sobre cuál adoptar se toma 
con base en las circunstancias de la situación. 

11.3.2 Muestreo para aceptación por variables 

La mayoría de los planes de muestreo para aceptación se llevan a cabo por caracte- 
rísticas, debido a dos razones fundamentales: la inspección por características es 



TABLA 11.4 Determinación de los valores de c que se encuentran relacionados con \ 2 /K, = 5. 



Número de 
aceptación c 


Valor de A, 
para P(A) = 


= np, 
0.95 


Valor de A> 
paraP(A) = 


= np^ 
0.1 


A:/A, 



1 

2 

3 


0.05 
0.36 
0.82 
1.37 






2.30 
3.90 
5.32 
6.68 




46.00 

10.83 

6.49 

4.88 



394 Métodos para el control de calidad y muestreo para aceptación 

TABLA 11.5 Cuatro planes de muestro para a = 0.05, = 0. 1 , NAC = 0.01 , y TPDL = 
0.05. :>¿>'-m--^. .-.■..■ 

. ; Probabilidad de aceptación Probabilidad de aceptación 

Plan de muestreo para NAC= 0.01 para TPDL = 0.05' 

n = 82, c = 2 . 0.95 0.2238 

n = 107, c = 2 0.91 0.10 

n = 137, c = 3 0.95 0.09 

n = 134, c = 3 0.95 0.10 



muy económica y muchas de las características de calidad sólo son observables como 
atributos. Sin embargo, en algunos casos puede hacerse una medición física de la ca- 
lidad de un producto dado. Cuando la aceptación se hace con base en mediciones 
físicas se dice que el muestreo se lleva a cabo por variables. Cuando éste es posible, 
se convierte en el tipo de muestreo más popular, ya que una medición física es pro- 
bable que proporcione mucho más información útil con respecto a la calidad de un 
producto que la dada por característica. Además, pueden obtenerse curvas CO más 
pronunciadas para el mismo tamaño de la muestra. La inspección por variables en 
general es más costosa que la inspección por características, debido a que, principal- 
mente, tiene que aplicarse el criterio de aceptación por separado para cada medición 
de calidad cuando se muestrea por variables. 

En el caso sencillo en el que la aceptación de un lote se hace con base en las me- 
dias de la muestra, se supone que la medición de la calidad es una variable aleatoria 
normalmente distribuida y con varianza conocida. Sean a el riesgo del productor y 
H a el promedio del lote para el que la probabilidad de aceptación es 1 - a. En for- 
ma similar, sea /3 el riesgo del consumidor y np el promedio del lote para el cual la 
probabilidad de aceptación es /3. Es decir, si el lote tiene una media /¿ a , se desea acep- 
tar el lote con una probabilidad 1 - a, y si éste tiene una media /i (/i a > /ip) se 
desea aceptar el lote con una probabilidad /3. Dados a, /3, fi a , y /i , el plan de 
muestreo por variables es una muestra de tamaño n y un valor_de aceptación x„, ta- 
les que, cuando el valor observado de la media de la muestra X es mayor que x„, el 
lote será aceptado. 

Para obtener x„ y n, considérese lo siguiente. Para el riesgo del productor 



P(X^x ü ) = a 



""17V?'- 



en donde 



cr/Vñ 



z a . (11.14) 



11.3 Procedimientos del mueslreo para aceptación -$J5 
Para el nesgo del consumidor .,,,/.,. 



i z> *tt)-* 



'9 msl 



rl\Tn 
en donde 

a/y/n 



= z,-,,. (11.15) 



Las ecuaciones dadas por (11.14) y (1 1.15) dependen de las incógnitas x„ y n. Al re- 
solver (1 i. 14) y (11.15) para *„, se tiene 

x„ = —7=2» + M« (11.16) 

y 

_ O" 

■*« = —¡=Z\-p + Hf}. (11.17) 

V« 

Al igualar (1 1 . 16) y (1 1 . 17) y resolver para n, se tiene 






2 

(11.18) 



Cuando se emplea (1 1.18) para obtener el tamaño de la muestra, el valor de acepta- 
ción x„ se obtiene, ya sea de (11.16) o de (11.17). 

Ejemplo 11.3 La compañía constructora de un gran edificio de oficinas se interesa 
en la resistencia a la compresión del concreto que se empleará en la construcción del 
edificio. El proceso a través del cual se fabrica el concreto con una resistencia pro- 
medio de 350 kilogramos por centímetro cuadrado es bueno. El concreto adquirido 
en este proceso debe aceptarse el 95% de las veces. Un proceso que ofrece una resis- 
tencia promedio de 347 kilogramos por centímetro cuadrado no es efectivo, y al ser 
adquirido será rechazado el 90% de las veces. Si el fabricante de cemento asegura a 
la compañía que la desviación estándar de su proceso no es mayor de 5 kilogramos 
por centímetro cuadrado, ¿cuántas muestras de concreto debe inspeccionar el 
contratista con respecto a su resistencia, y cuál debe ser el valor de aceptación para 
la media de la muestra bajo las condiciones dadas? Supóngase que la resistencia a la 
compresión del concreto se encuentra normalmente distribuida. 

Los riesgos del productor y del consumidor están dados como a = 0.05 para 
¡x, t = 350 y /3 = 0.10 para ju.^ = 347, respectivamente. Para a = 0.05 y 
1 - j3 = 0.9, los valores cuantiles normales estandarizados correspondientes son 
mu>5 = _ 1 -643 y ¿o.t) = 1 -282. Entonces, mediante el empleo de (1 1.18), el tama- 
ño necesario de la muestra es 



396 Métodos para el control de calidad y muestreo para aceptación 



n = 



5(1.282 + 1.645) T J ' ' 

350 - 347 W J .." ' 



Para el riesgo del productor (11.16) 

5 



'" V24 
y para el del consumidor (11.17) 



(-1.645) + 350 = 348.32, 



x„ = —=(1.282) + 347 = 348.31. 

V24 

Para x„ = 348.32, el plan de muestreo consiste en probar la resistencia de 24 
muestras de concreto provenientes del proceso v aceptar el concreto siempre que la 
resistencia promedio sea mayor de 348.32 kilogramos por centímetro cuadrado. 

11.3.3 Sistemas de planes de muestreo 

Desde la Segunda Guerra Mundial, los planes de muestreo para aceptación se han 
convertido en procedimientos estándar para asegurar la calidad de los productos 
manufacturados y con este propósito se ha desarrollado una gran variedad de siste- 
mas de planes de muestreo para aceptación. Tres de los sistemas más empleados son 
M1L-STD-105D*, M1L-STD-414, y el Dodge-Romig Sampling Inspection Tables. 
En las referencias [4], [5] y [1] se encuentra información detallada de estos sistemas. 
Los primeros dos fueron desarrollados por el Departamento de la Defensa y se apli- 
can bajo un procedimiento de inspección no verificable. M1L-STD-105D contiene 
planes para el muestreo por características y MIL- STD-4I4para el muestreo por va- 
riables. Los planes de muestreo Dodge-Romig se basan en un programa de inspec- 
ción con verificación; estos suponen un porcentaje de unidades defectuosas del proce- 
so conocido, y los planes de muestreo sencillos se encuentran indexados por TPDL 
para riesgo del consumidor de 0.10. Estos tres sistemas se encuentran descritos en [3]. 



Referencias 

1. H. F. Dodge and H. G. Romig. Sampling inspection tuhles — Single and doitble 
sampling, 2nd ed. Wiley, New York. 1959. 

2. A. J. Dtmcan. Quality control and industrial stalistics. 4th ed.. Richard D. Irwin, 
Homewood. III.. 1974. 

3. E. L. Grant and R. S. Leavenworth. Stalislical qualitx control, 4th ed., McGraw-Hill. 
New York. 1972. 

4. Militan; standard I05D, Sampling procetlnres and tables for inspection hy uttribnles, 
Stiperintendent of Documents. Government Printing Office. Washington. D.C.. 1963. 

* Fuera de Estados Unidos el sistema se conoce como ABC-STD-105D. 



Ejercicios 397 

5. Militan/ standard 414, Sampting procedures and tahles for ¡nspection by variables for 
percent defective, Superintendent of Documents, Government Printing Office, Wash- 
ington, D.C., 1957. 



Ejercicios 

11.1. El consejo estatal formado para controlar la calidad del agua selecciona cada semana 
cinco muestras de agua de una fuente de abastecimiento y determina la concentración 
promedio de una sustancia tóxica. Los siguientes datos son las cantidades promedio en 
partes por millón durante 12 semanas. 



Semana 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


II 


12 


Media 

de la muestra 


5.2 


4.9 


5.5 


5.4 


4.8 


4.6 


5.5 


4.7 


5.1 


4.5 


5.8 


5.6 



a) Si los valores de la concentración promedio y de la desviación estándar son 5 y 0.5 
ppm, respectivamente, obténganse los limites de control 3a para la concentración 
promedio. Para este periodo, ¿existió alguna razón para alarmarse? 

b) Si se considera como peligrosa una concentración de 6 ppm, ¿que tan probable es 
tener un resultado como el anterior, con base en cinco muestras de agua, si la con- 
centración real promedio es de 5 ppm? 

c) Mediante el uso de los limites de control de la parte a, ¿cuál es la probabilidad de 
detectar un desplazamiento en el valor de la concentración media de 5 ppm a 5.25 
ppm? 

1 1 .2. Mediante el empleo de la información proporcionada en el ejercicio 11.1, obténganse 
los límites de control 3<r para la desviación estándar de la muestra. 

11.3. Los siguientes datos son las tensiones de ruptura promedio de seis muestras de metal 
tomadas en forma periódica: 



Muestra 



Media 

de la muestra 



1 23456789 10 



498.6 508.3 484.6 505.7 491.7 495.4 482.6 515.2 510.8 503.7 



Se sabe que los valores de la tensión de ruptura promedio y de la desviación estándar 
son 500 y 20 libras, respectivamente. 

a) Obténganse los límites de control 3a para la tensión de ruptura media de la muestra y 
hágase una gráfica de la tabla de control. ¿Existe alguna media muestral que se en- 
cuentre fuera de los límites de control? 

b) Obténgase la probabilidad de no detectar un corrimiento en el valor real de la ten- 
sión de ruptura promedio de 500 a 494 libras. 

c) Obténganse los limites de control 3o- para la desviación estándar muestral. 

1 1 .4. Los datos que se encuentran en la tabla 1 1 .6 consisten en 20 muestras, cada una con 
cuatro observaciones, de los diámetros de cojinetes producidos por un proceso de ma- 
nufactura. 

a) Construyanse los limites tentativos 3a para las tablas de control X y 5. 

b) Si se detecta que el proceso no se encuentra bajo control, con base en alguna 
muestra, recalcúlense los límites tentativos. 



398 Métodos para el control de calidad y muestreo para aceptación 



TABLA 11.6 Datos de la muestra para el ejercicio 1 1 .4 



Número de 










la muestra 




Valores de la muestra (en centímetros) 


1 


4.01 


4.03 


3.98 


4.04 


2 


3.97 


3.99 


3.99 


4.02 


3 


4.06 


4.05 


3.97 


4.02 


4 


3.% 


3.98 


4.07 


4.03 


5 


3.98 


3.99 


3.99 


4.00 


6 


4.01 


4.02 


3.96 


3.99 


7 


3.95 


3.98 


4.02 


4.03 


8 


4.03 


4.00 


3.96 


4.04 


9 


4.07 


3.% 


3.98 


4.05 


10 


3.98 


3.97 


4.02 


4.04 


11 


3.92 


4.03 


4.05 


3.99 


12 


3.97 


4.05 


4.04 


4.01 


13 


4.04 


4.04 


3.96 


3.99 


14 


4.03 


4.00 


4.02 


4.05 


15 


3.95 


3.% 


3.95 


4.02 


16 


4.05 


4.09 


4.07 


4.02 


17 


3.98 


4.06 


4.04 


4.03 


18 


4.01 


4.02 


4.00 


3.97 


19 


4.02 


4.01 


4.05 


3.99 


20 


3.99 


3.99 


4.01 


4.00 



11.5. Las tablas de control X y S de un proceso de llenado de recipientes se conservan por 
algún tiempo. Con base en 25 muestras periódicas, cada una con cinco recipientes, se 
obtiene que X = 400.2 g y 5 = 15.3 g. 

a) Si se supone que el proceso de llenado se encuentra bajo control ¿cuáles son los 
límites de control de la media y la desviación estándar muestral? 

b) Obténgase un estimado de la desviación estándar del proceso. 

11.6. En el ejercicio 11.5, supóngase que cada muestra contenía seis recipientes. ¿Cómo 
puede afectar este cambio a las respuestas de las partes a y bl 

1 1.7. En un proceso de manufactura, cada día se seleccionan al azar 100 unidades y se envían 
para su inspección. Los siguientes datos son el número de unidades defectuosas en la 
muestra durante 25 días. 



Día 



1 



10 II 12 13 



Número de 

unidades 

defectuosas 



Día 


14 


15 


16 


17 


18 


19 


20 


21 


22 


23 


24 


25 


Número de 

unidades 

defectuosas 


3 


2 


1 





6 


4 


5 


2 


1 


8 


3 


2 



a) Con base en esta información, obténgase una tabla p. 

b) Revísense los límites de control si algún día el proceso se juzgó como fuera de 
control. 



Ejercicios 399 

c) Si se supone que el proceso se encuentra bajo control con un porcentaje de unidades 
defectuosas, igual al obtenido en la parte b, ¿cuál es la probabilidad de que, en un 
día determinado el proceso se considere como fuera de control? 

1 1.8. Se supone que el porcentaje de unidades defectuosas para un proceso de manufactura 
es de 4%. El proceso se vigila diariamente mediante la toma de muestras de n = 80 
unidades. Éste se detiene cada vez que se encuentran cinco o más unidades defectuosas 
en la muestra. Si el verdadero porcentaje de unidades defectuosas es de 5.5%, ¿cuál es 
la probabilidad de detener el proceso? 

11.9. Supóngase que la calidad de un lote muy grande es de sólo 5% de unidades defec- 
tuosas. Un plan de muestreo para aceptación requiere una muestra de 40 unidades y un 
número de aceptación igual a 2 unidades. 

a) ¿Cuál es la probabilidad de que el lote sea aceptado? 

b) Si la calidad real del lote es de 6.25% de unidades defectuosas, ¿cuál es la probabili- 
dad .': que el lote sea aceptado? 

11.10. Para el ejercicio 1 1 .9, supóngase que el tamaño de la muestra es de n = 80 unidades y 
el número de aceptación es igual a cuatro unidades. ¿Cómo afectarán estos cambios a 
las respuestas de las partes a y bl 

11.11. La candad de un lote de N = 20 unidades es del 10% defectuosas. Si se toma una 
muestra aleatoria de cinco unidades y no se encuentra ninguna defectuosa se aceptará 
el lote. ¿Cuál es la probabilidad de aceptar el lote? 

11.12. Hágase una gráfica de las curvas características de operación para los planes de 
muestreo n = 25, c = 1 y n = 50, c = 2. Compárense las curvas características de ope- 
ración. 

11.13. Para el plan de muestreo n = 25, c = 1 , empléese la curva CO para obtener el TPDL 
para un riesgo del consumidor de 0.05. 

11.14. Para el plan de muestreo n = 50, c = 2, empléese la curva CO para obtener el NAC 
para un riesgo del productor de 0.05. 

11.15. Obténganse los cuatro planes de muestreo que relacionarán los riesgos del productor y 
del consumidor de a = 0.05 para NAC = 0.02 y (3 = 0. 1 para TPDL = 0.08, res- 
pectivamente. 



tor y 



Jm 

m 



1 1 . 16. Obténganse los cuatro planes de muestreo que relacionarán los riesgos del producK 
del consumidor de a = 0.10 para NAC = 0.01 y /3 = 0. 1 para TPDL = 0.05. 

1 1 . 17. En muchas ocasiones se emplea un plan de muestreo doble para el muestreo de acepta- 
ción; este plan requiere una muestra aleatoria de n, unidades de un lote de N unidades. 
Si el número de unidades defectuosas no es mayor que c,, el lote se acepta; si se 
encuentra una cantidad de unidades defectuosas es > c, el lote se rechaza. Si el núme- 
ro de unidades defectuosas en la primera muestra es mayor que c ¡t pero menor que c 2 , 
se toma otra muestra aleatoria de tamaño n Y El lote se acepto si el número de unida- 
des defectuosas en ambas muestras no es mayor que c\; de otra forma el lote se recha- 
za. Mediante el empleo de este procedimiento determínense las siguientes probabilidades 
para el doble plan de muestreo N = 5000, n, = 50, tu = 80. c, = 0, es = 3 si la cali- 
dad del lote es de 2% de unidades defectuosas. 

a) La probabilidad de aceptar el lote con base en la primera muestra. 



400 Métodos para el control de calidad y muestreo para aceptación ; 

b) La probabilidad de rechazar el lote con base en la primera muestra. 

c) La probabilidad de aceptar el lote después de tomar la segunda muestra. ' 

d) La probabilidad de rechazar el lote después de tomar la segunda muestra. £ 

11.18. Una agencia estatal se encarga de vigilar el nivel de concentración de cierto contami- £ 
nante químico, el cual ha sido derramado en grandes cantidades en uno de los ríos más y 
grandes, del estado. La agencia debe decidir en forma periódica cuándo el nivel de con- ': 
centración se encuentra entre límites seguros para permitir la pesca con fines comer- 
ciales. La agencia desea obtener un plan de muestreo por variables de tal manera que 
cuando el nivel de concentración promedio real sea de 5.6 ppm decidirá el 95% de las 

veces que la pesca continúe. Pero desea prohibir la pesca el 99% de las veces que se ob- 
serve una concentración hasta de 6.0 ppm. Si la desviación estándar no es mayor de 
una parte por millón, determínese el plan de muestreo. Supóngase que la concentra- 
ción de este contaminante se encuentra normalmente distribuida. 

11.19. Un comprador de grandes cantidades de hilo desea desarrollar un plan de muestreo por 
variables para la tensión de ruptura del hilo. El hilo será aceptado por el comprador si 
su tensión de ruptura es mayor de 60 libras. Si se sabe que la desviación estándar del 
hilo es de 8 libras y dados a = 0.05, /J = 0.05, NAC = 0.05yTPDL = 0.1, obténga- 
se el plan de muestreo. Supóngase que la tensión del hilo se encuentra normalmente 
distribuida. 



CAPÍTULO DOCE 



Diseño y análisis 

de experimentos estadísticos 



12.1 Introducción 

En las secciones 9.6.3 y 9.6.4 se introdujeron algunas ideas básicas con respecto a la 
planeación y adquisición de datos experimentales, con el propósito de alcanzar el 
máximo beneficio de la aplicación de la inferencia estadística. En este capítulo se es- 
tudiará la noción de experimentos diseñados estadísticamente y se extenderán algu- 
nos de los métodos del capítulo 9 mediante la introducción de una técnica estadística 
importante conocida como análisis de varianza. 



12.2 Experimentos estadísticos 

Para cualquier fenómeno en el que existe la incertidumbre, el procedimiento apro- 
piado para investigarlo es experimentar con él, de manera que puedan identificarse 
las características de interés. Por ejemplo, supóngase que se desea identificar el com- 
portamiento óptimo de un sistema con respecto a su funcionamiento y costo en dis- 
tintas condiciones; entonces debe pensarse en un experimento como medio para que 
el sistema sea observado bajo las condiciones de interés, de tal manera que su com- 
portamiento pueda conocerse. 

El elemento más importante de un experimento, y que muchas veces se subestima, es 
la formulación del problema por resolver. No puede esperarse una oportunidad 
de éxito razonable sin alguna dirección con respecto al propósito del experimento. 
Una vez que éste se define, es necesario identificar la variable por medir o respuesta 
que se va a estudiar y el factor o factores potenciales que pueden influenciar la va- 
riabilidad de la respuesta. La respuesta también se conoce como variable dependien- 
te; el factor recibe el nombre de variable independiente; se supone que este último se 
encuentra bajo el control del investigador. Por ejemplo, en una tienda el interés re- 
cae en el número de empleados disponible, de manera que el tiempo de espera del 
cliente no sea excesivo. En este caso, la respuesta es el tiempo de espera y el factor el 
número de empleados disponible. 



402 Diseño y análisis de experimentos estadísticos 

Un nivel o tratamiento del factor es un valor o condición de éste bajo el cual se 
observará la respuesta medióle. Por ejemplo, supóngase que se desea observar el 
tiempo de espera cuando la tienda tiene a su servicio dos, cuatro o seis empleados a 
la vez. Si un experimento consiste en varios factores, un tratamiento es una combi- 
nación de los niveles de cada factor; por ejemplo, si se desea estudiar el tiempo de es- 
pera como una función del número de empleados en un determinado momento del 
día, entonces un tratamiento es la combinación de un número particular de emplea- 
dos en un momento dado del día. El proceso por medio del cual se seleccionan los 
tratamientos se encuentra dictado más o menos por las metas del experimento. Para 
experimentos preliminares, en los cuales el propósito primordial es aislar los princi- 
pales factores, el investigador debe escoger mentalmente los tratamientos con una 
visión muy amplia, de manera que obtenga un conocimiento útil del mecanismo bajo 
estudio. En forma posterior, se puede conducir un experimento más preciso con el 
propósito de hacer hallazgos más específicos. 

Una unidad experimental se define como el objeto (persona o cesa) "¡ue es capaz 
de producir una medición de la variable de respuesta después de aplicar un tratamien- 
to dado. La selección de una unidad experimental o del tamaño de ésta descansa, de 
nuevo, enteramente en el experimentador. Por ejemplo, si un fabricante de focos de- 
sea comparar la duración de éstos con la de sus competidores, entonces los focos selec- 
cionados son las unidades experimentales y el número de marcas diferentes los trata- 
mientos. O si se tiene interés en determinar la concentración de un contaminante en 
un lago en función de la ubicación geográfica, entonces las localidades del lago que 
se seleccionan para medir la concentración del contaminante son los tratamientos y 
la pequeña área superficial de cada localidad, la unidad experimental. 

En un ambiente de incertidumbre los experimentos son, en forma general, com- 
parativos en el sentido de que, idealmente, miden y comparan las respuestas de uni- 
dades experimentales esencialmente idénticas, después de que éstas se exponen a los 
tratamientos seleccionados y aplicados por el investigador. Todos los factores exter- 
nos que pueden influenciar la respuesta deben eliminarse o controlarse. Sin embargo, 
no siempre puede garantizarse el control de los factores externos; por ejemplo, en 
forma práctica, casi cualquier experimento que incluye alguna actividad financiera 
guardará alguna interrelación con las condiciones económicas prevalecientes que no 
pueden controlarse. Tal desviación del control experimental ideal necesita de la repe- 
tición del experimento en una muestra de unidades experimentales para determinar 
la variación aleatoria o error experimental. Esta es la variación extraña en la res- 
puesta o la variación que no puede ser atribuible a un cambio de tratamiento. Por lo 
tanto, es posible la inferencia estadística al comparar el error experimental con las 
respuestas promedio que resultan de la aplicación de los diferentes tratamientos. 

En algunas ciencias pueden llevarse a cabo experimentos de laboratorio ideales, 
pero en las ciencias socioeconómicas, las desviaciones de las condiciones experimenta- 
les ideales tienen un lugar común debido a que el medio no permite un control sufi- 
ciente. Por ejemplo, puede ser interesante estudiar el efecto de un aumento en las tasas 
de interés (tramiento) en la actividad de construcción de casas (respuesta) por parte de 
los constructores (unidades experimentales). Los tratamientos no pueden aplicarse a 
las unidades experimentales, ni la respuesta puede medirse de acuerdo con un experi- 
mento planeado. Sólo puede registrarse la información conforme cambian las condi- 



12.3 Diseños estadísticos 403 



w 



ciones en el mundo real. Aunque para un purista lo anterior no constituye un experi- 
mento, estos tipos de estudios merecen una considerable atención. Para el análisis de 
estos datos es más apropiado el empleo de los métodos de regresión que los que se es- 
tudiarán en este capítulo. En los capítulos 13 y 14 se examinará el análisis de regresión. 



12.3 Diseños estadísticos 

El proceso por medio del cual se miden las observaciones de la respuesta se centra en 
un diseño estadístico. En general, en los experimentos diseñados estadísticamente, las 
unidades experimentales deben seleccionarse en forma imparcial, así como los trata- 
mientos asignados a éstas, mediante un proceso aleatorio, con el propósito de remo- 
ver los posibles sesgos sistemáticos. Como ya se indicó en el capítulo 9, el proceso 
aleatorio no sólo protege contra el sesgo sistemático, sino también tiende a neutrali- 
zar los efectos de todos aquellos factores externos que no se encuentren bajo el 
control del investigador. Entonces las comparaciones entre los tratamientos se mi- 
den, en forma práctica, como si el efecto en la respuesta se debiera sólo a la diferen- 
cia entre los tratamientos. 

En un experimento diseñado estadísticamente es de igual importancia el concep- 
to de repetición, Como ya se ha notado con anterioridad, el propósito de la repeti- 
ción es medir el error experimental. La magnitud de éste juega un papel muy impor- 
tante en la toma de decisiones con respecto a la posibilidad de que las diferencias 
entre los tratamientos sean discernibles en forma estadística. 

En el diseño de experimentos estadísticos, el interés primario recae en cómo asig- 
nar las unidades experimentales a los tratamientos (o viceversa), para asegurar un 
proceso imparcial. En este contexto surgen dos conceptos básicos: el proceso de 
asignación debe hacerse con base en un diseño completamente aleatorio, o en un di- 
seño en bloque completamente aleatorio. Cualquiera de estos dos diseños puede 
emplearse en experimentos unifactoriales o en aquéllos en los que se desea investigar 
varios factores en forma simultánea. Con un diseño complementario aleatorio, la 
asignación de los tratamientos a cada unidad experimental se lleva a cabo en forma 
totalmente aleatoria y todas las unidades se suponen homogéneas. En forma gene- 
ral, se hace uso de un procedimiento aleatorio sencillo como la generación de núme- 
ros aleatorios para llevar a cabo el proceso de asignación. El uso de un diseño 
completamente aleatorio implica que las condiciones bajo las cuales será observada 
la respuesta (u otras que se encuentren bajo el control del investigador) serán las mis- 
mas a través de todo el experimento. Este tipo de diseño no debe usarse en aquellas 
situaciones en las que las observaciones se realizarán sobre factores potenciales 
como el tiempo, el espacio o efectos demográficos, a menos que éstos sean partes 
legítimas del experimento. 

No obstante, muchas veces el investigador se da cuenta de que el experimento no 
se puede conducir en el mismo ambiente, debido, principalmente, a que no todas las 
unidades experimentales son homogéneas; por lo tanto, éstas se clasifican en bloques 
homogéneos y se asignan todos los tratamientos en forma aleatoria a las unidades de 
cada bloque, con lo que se crea lo que se conoce como un diseño en bloques completamen- 
te aleatorio. La palabra "completamente" indica que cada bloque contiene todos los 



404 Diseño y análisis de experimentos estadísticos 

tratamientos, mientras que la palabra "aleatorio" significa que todos los tratamientos 
serán asignados, en forma aleatoria, a las unidades experimentales de cada bloque. 

El investigador reconoce la necesidad de agrupar en bloques, mediante la identifi- 
cación de los elementos potenciales de las unidades experimentales que no se han 
incluido en la definición de un tratamiento, pero que pueden causar una variación 
significativa en la respuesta. Muchas veces éstos guardan relación con efectos espa- 
ciales, temporales o demográficos. Por ejemplo, si las unidades experimentales son 
seres humanos, entonces el agrupamiento por bloques deberá hacerse tomando en 
cuenta sexo, edad, condiciones de salud, experiencia, etc., como lo dicta el experi- 
mento. Si éste se va a realizar en un lapso grande deberá considerarse como una 
variable para el agrupamiento por bloques. Si los datos experimentales se van a reco- 
lectar, ya sea en distintas localidades o en grupos, entonces éstos deberán conside- 
rarse como variables en bloque. Si se van a usar varios instrumentos para registrar 
los datos, se deberá considerar un agrupamiento de instrumentos por bloques, aun si 
éstos son del mismo modelo y con mayor razón si provienen de distintos fabricantes. 

Por lo tanto, la necesidad de agrupar en bloques es evidente; entre más heterogé- 
neas son las unidades experimentales, mayor es el error experimental y menor la 
oportunidad de detectar diferencias reales entre los diversos tratamientos. La razón 
de agrupar en bloques es tomar en cuenta, y de esta forma remover, la fuente de va- 
riación en la respuesta que no es de interés, con lo que se incrementa la sensitividad 
para detectar diferencias entre los tratamientos. Así, el principio general de un dise- 
ño estadístico radica en minimizar el error experimental mediante el control de las 
variaciones extrañas, de manera que pueda detectarse la variación sistemática en la 
respuesta. 



12.4 Análisis de experimentos unifactoriales en un diseño 
completamente aleatorio 

El tipo de experimento más sencillo es aquél que compara el efecto de k 3= 2 niveles de 
un solo factor sobre alguna variable de respuesta. Los niveles del factor son los tra- 
tamientos, y si éstos se aplican en forma aleatoria a un conjunto virtualmente homo- 
géneo de unidades experimentales, el experimento tiene un diseño completamente 
aleatorio. Esta situación es una extensión natural del problema que surge cuando se 
comparan dos medias poblacionales en donde las variantes son desconocidas pero 
que se suponen iguales. La prueba / para dos muestras, la cual se estudió en el capí- 
tulo 9, se basa en un diseño completamente aleatorio. 
Para k ^ 2 niveles, se desea probar la hipótesis nula 

H»- Mi = M: = '" = M* (12.1) 

contra la alternativa de que algunas de las medias de la población no son las mismas. 
Si es posible rechazar la hipótesis nula con base en k muestras independientes, en- 
tonces las medias de las k poblaciones no son todas iguales entre sí, o el efecto de los 
tratamientos sobre la respuesta es estadísticamente discernible. Si no puede recha- 
zarse la hipótesis nula, cualquier desviación observada en la respuesta se debe sólo al 
error aleatorio y no a causa de un cambio en el tratamiento. 






12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 405 

Se pueden manejar muchos problemas prácticos con un experimento unifactorial 
completamente aleatorio. Unos cuantos ejemplos son los siguientes: saber si tienen 
algún efecto sobre el consumo de energía ligeras diferencias en el aislamiento de los 
techos de las casas; si la media del llenado producido por máquinas en un proceso de 
llenado es la misma, o si los vendedores que reciben diferentes métodos de entrena- 
miento, incrementan su volumen de ventas en forma diferente. En estos casos, los 
tratamientos son el aislamiento de los techos, las diferentes máquinas y los diversos 
métodos de entrenamiento; las unidades experimentales son las causas selecciona- 
das, los recipientes llenos y los vendedores, respectivamente. En el primer caso los 
tratamientos son cuantitativos, ya que los distingue una escala bien definida (R). En 
los últimos dos casos los tratamientos son cualitativos, dado que representan cosas o 
sujetos diferentes y por lo tanto carecen de escalas numéricas. 

La necesidad de tener unidades experimentales homogéneas esencialmente puede 
ilustrarse con el primer ejemplo. Si se seleccionan casas para el experimento que no I 

sean del mismo tamaño, en ese ca^o n^ se tiene el mismo aislamiento en los techos y \ 

se tienen dist ; ntas calidades con respecto al clima, si éstas se localizan en distintas zo- i 

ñas geográficas; de esta forma las diferencias en el consumo de energía no se pueden 
atribuir sólo al aislamiento del techo. Así, para un diseño completamente aleatorio los 
resultados serán ambiguos, a menos que las unidades experimentales sean virtual- i ¡ 

mente homogéneas. 

La técnica del análisis de varianza proporciona el procedimiento inferencial para 
probar la hipótesis nula dada por (12.1). Para desarrollar esta técnica, se analizará 
el problema del aislamiento. Supóngase que se tiene interés en k diferentes niveles 
de aislamiento en el techo, tales que para el y'-ésimo nivel se observará el consumo de 
energía mensual del sistema de calentamiento en n } casas diferentes pero muy simila- 
res. Las casas que se seleccionan para este experimento son homogéneas y los factores 
externos están controlados dentro de ciertos límites prácticos. La información de la 
muestra puede colocarse como se presenta en la tabla 12.1, donde la respuesta medible 
es el número de kilowats-hora mensuales utilizados por el sistema de calentamiento 
de cada casa. 



TABLA 12.1 Arreglo común de los datos de la muestra de un experimento con sólo un factor 
completamente aleatorizado 

Tratamientos 

1 2 ••■ j ••• k 

Y\i Y¡ 2 "" Y\j "' ^u 

f 3 . Yr, ■■■ Y v ••• Y lk 



Ya 



lis 



Y„a 



406 Diseño y análisis de experimentos estadísticos 

Se supone que cada nivel de aislamiento térmico en los techos representa una 
población a partir de la cual se obtiene una muestra; también, que las distribuciones 
de las poblaciones para cada nivel de aislamiento son normales con varianzas 
iguales. De acuerdo con lo anterior, las columnas de la tabla 12.1 representan k 
muestras aleatorias independientes de tamaños n¡ , j = 1,2,..., k. Si la hipótesis nula 
dada por (12.1) es cierta, la observación Y t¡ es el uso promedio de energía de los siste- 
mas de calentamiento para todos los k niveles de aislamiento térmico y cualquier 
desviación del promedio se debe a un error aleatorio. Si H Q es falsa, entonces Y¡j está 
constituida por todos los promedios, más el efecto dely-ésimo tratamiento y el error 
aleatorio. El promedio matemático para un experimento unifactorial completa- 
mente aleatorio es 

Y u = fx + Tj + e¡j j = 1, 2 k, (i2.2) 

' = 1, 2 n¡, 

en donde Y {j es la /-ésima observación dely-ésimo tratamiento, /t es la media sobre to- 
das las k poblaciones, t, es el efecto sobre la respuesta debido al y'-ésimo tratamiento, y 
£,/ es el error experimental para la /-ésima observación bajo ely'-ésimo tratamiento. 
Se supone que los errores son independientes y que se encuentran normalmente 
distribuidos con medias cero y varianzas iguales. En otras palabras, e, v ~ M0, a 2 ) 
para toda /' yj. La suposición sobre los t/ depende de cómo considere el investigador 
los niveles del factor. Si el investigador está interesado en lo que le pasa a la respues- 
ta, sólo para ciertos niveles del factor que se seleccionan de antemano, entonces 
T|, t 2 , ..., r k se consideran como parámetros fijos tales, que 

I n/rj = 0. 
■/'=' 

Por lo tanto, el modelo dado por (12.2) se conoce como modelo de efectos fijos y las 
inferencias estadísticas con respecto a los efectos de los tratamientos pertenecen, en 
forma exclusiva, a los niveles seleccionados. 

Por otro lado, si los niveles empleados en el experimento se seleccionaron al 
azar, de una población de posibles niveles, entonces t¡, t 2 , ..., r k son variables 
aleatorias independientes que t, ~ N(0, a 2 T ) para toda y. En este caso, el modelo 
dado por (12.2) se conoce como modelo de efectos aleatorios, y las inferencias 
estadísticas con respecto a los niveles de un factor pertenecen a la población de niveles. 

En general, para factores cuantitativos es deseable escoger niveles fijos del inter- 
valo de interés, debido a que no es probable que una selección aleatoria proporcione 
una amplia cobertura de éste. La interpolación de los niveles fijos previamente selec- 
cionados también es una práctica muy segura para factores cuantitativos. Cuando 
los factores son cualitativos como seres humanos, localidades o grupos, su selección 
sólo es importante cuando puede revelar algo con respecto a la variabilidad de la 
población. 



*En lugar de emplear una letra mayúscula para las variables aleatorias e -, se seguirá la tradición de utili- 
zar la letra griega minúscula épsilon. 



:! fc 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 407 
Para un modelo de efectos fijos, una hipótesis nula equivalente a (12.2) es 

H : jj = 0, paratodaj. (12.3) 

La hipótesis nula (12.3) establece que no existe ningún efecto de los tratamientos 
sobre la respuesta, lo que a su vez implica que las k medias de la población son 
iguales entre sí. Entonces se tiene como resultado que cada observación consiste en 
una media común y cualquier desviación con respecto a ésta se debe a la variación 
inherente dentro de cada población. 

Para un modelo de efectos aleatorios, la hipótesis nula consiste en la proposición 
de que la varianza entre los r, (o los efectos del tratamiento) es cero; es decir, 

H : a 2 T = 0. (12.4) 

Así, al suponer independencia entre los errores y tratamientos aleatorios, 

Va/-(y„.) = cr 2 + cr?. 

Para el modelo de efectos aleatorios, el interés recae en hacer una evaluación de 
cuánto de la varianza en las observaciones se debe a diferencias reales en las medias 
de los tratamientos y cuánto se debe a errores aleatorios con respecto a estas medias. 
En este capituló el principal interés se centra en el modelo de efectos fijos, pero 
se incluirá el caso de efectos aleatorios cuando sea necesario. El punto de vista 
empleado para desarrollar la técnica del análisis de varianza será, en gran parte, in- 
tuitivo. Para un tratamiento teórico de la materia, véase [6]. 

12.4.1 Análisis de varianza para un modelo de efectos fijos 

Sean /u., , ¡i 2 , . . . , fx k las medias de las k poblaciones, y sea ¿i la media de todas las 
poblaciones. Se define el efecto r, dely'-ésimo tratamiento como la desviación de la 
y'-ésima población media m> respecto a la media global m- De esta forma, 

T J = M; ~ M» j = I» 2 » •■••*• 

En el mismo sentido, el error aleatorio correspondiente e u de la observación l^es la 
desviación de Y tj con respecto de la y'-ésima media Mj o 

Eu = Y¡j - M;, j = 1.2, ...,k, 
i = 1,2, ..., iíj. 

De acuerdo con lo anterior, el modelo dado por (12.2) puede escribirse de la siguien- 
te manera 

y,j = /i + Uij- fi) + (Y,j - fij), 

o 

Y iJ - ix = ( M ,. - ijl) + (Y u - pj). 02-5) 



408 Diseño y análisis de experimentos estadísticos 

La igualdad dada por (12.5) establece, en forma explícita, que cualquier des- 
viación de una observación con respecto a la media global se debe a dos posibles 
causas: a la diferencia en el tratamiento o a un error aleatorio. Si se rechaza la hipó- 
tesis nula dada por (12.3), los datos de la muestra deben demostrar que la desviación 
total que se debe a la diferencia en el tratamiento es, suficientemente, más grande 
que la desviación causada por el error aleatorio. De esta forma, la técnica del análi- 
sis de varianza es en realidad un análisis de la variación de las medias y éste se logra 
mediante la participación de la variación total en las observaciones en componentes 
especificados por el modelo matemático. Esto permite determinar una estadística 
apropiada de tal manera que pueda tomarse una decisión con respecto a la hipótesis 
H : Tj = 

Los parámetros Mi , M2 > • • • , M* y M no son conocidos, pero pueden estimarse con 
base en las observaciones de las k muestras aleatorias. Para la información de la 
muestra dada en la tabla 12. 1 se define lo siguiente: 



Tj = 1 Y u , 

1=1 


j= 1,2,. 


..,*, 


Y.j = T.j/nj, 


j= 1,2,. 


.,*, 


k 

T.. = 2 T.j, 

7=1 






" = 1 «y. 

7=1 






Y. = T../N. 







De nuevo, se emplea la notación de punto para indicar que la suma se lleva a cabo 
sobre el correspondiente subíndice. En particular, T.¡ es la suma de las itj observa- 
ciones en eiy-ésimo tratamiento, Y.¡ es la media de la muestra deiy-ésimo tratamien- 
to, T es la suma de todas las TV observaciones y K. es la media de la muestra de to- 
das las observaciones. 

Al sustituir las estadísticas Y. } y Y en (12.5) para los parámetros \x.¡ y /x, respec- 
tivamente, se obtiene la correspondiente igualdad en la muestra 

Y u - Y = (Y.j - Y) + Wj - Y.j). (12.6) 

La esencia de la identidad de la muestra (12.6) es la división de la desviación de una ob- 
servación Y¡j del promedio de la muestra total Y en dos componentes la desviación 
de la media de la muestra del tratamiento Y.j de Y , y la desviación de Y u de su pro- 
pia media de tratamiento Y.j. De acuerdo con lo anterior, puede argumentarse en 
forma lógica que entre mayor sea la desviación entre Y.j y Y ... se tiene más inclina- 
ción a rechazar la hipótesis nula dada por (12.3). 

Para determinar una estadística de prueba apropiada, supóngase que se toma 
el cuadrado de ambos miembros de (12.6) y se suman sobre todos los iyj. De esta 



I 



J| 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 409 



forma, 



Pero 



2 2 (Y u - T..) 2 = 22 (7, - 7.) 2 + H(Y U - 7,) 2 

y-í í=i y=i i- 1 y=i /=i 

k tij 
+ 2 2 S (7; "?..)( ^ -7,). 

y= i /= i 



2 2 (7; - Y..)(Y U - Y,) = 2 (7, - 7) 
;=i í=i j=\ 

k 

= 2 (7, - 7.) 

y= i 

= 0, 

dado que Efi, Y¡¡ = T.¡ = n-Y.j. 

Como resultado se tiene que la ecuación 



2 (Yu - Y,) 

í= i 

lYu-njY.j 



(12.7) 



2 2 (y, - Y.f =22 (7, - y? + 22 (Y, - 7,) 2 



y= i í= i 



y=i í=i 



(12.8) 



establece que la suma total de los cuadrados de las desviaciones con respecto a la media 
global sé descompone en la suma de los cuadrados de las desviaciones de las me- 
dias de los tratamientos en relación con la media global, y la suma de los cuadrados 
de las desviaciones de las observaciones con respecto a sus propias medias de trata- 
miento. La expresión (12.8) se conoce como la ecuación fundamental del análisis de 
varianza. El término en el lado izquierdo de (12.8) es la suma total de cuadrados y se 
denota por STC. El término en medio de (12.8) es la suma de los cuadrados de los 
tratamientos y se denota por SCTR. El último término es la suma de los cuadrados 
de los errores, denotada por SCE. Por lo tanto, 



STC = SCTR + SCE 



(12.9) 



SCE mide la cantidad de variación en las observaciones debida a un error alea- 
torio. Si todas las observaciones que se encuentran dentro de un mismo tratamiento 
son las mismas, y si este hecho es cierto para todos los k tratamientos, entonces SCE 
= 0. De acuerdo con lo anterior, entre más grande es SCE, mayor es la variación en 
las observaciones que puede atribuirse a un error aleatorio. SCTR mide la extensión 
de la variación, en las observaciones, que se debe a las diferencias entre los tratamien- 
tos. Si todas las medias de los tratamientos son iguales entre sí, entonces SCTR = 0. 
De esta forma, entre más grande es el valor de SCTR, mayor es la diferencia que 
existe entre las medias de los tratamientos y la media global. 

Puede demostrarse que bajo la hipótesis nula //„: r, = y la suposición de que 
e,, ~ jV(0, o- 2 ),SCTR/o- : y SCE/o- : son dos variables aleatorias independientes con 
una distribución chi-cuadrada. Los grados de libertad se obtienen al separar la suma 



410 Diseño y análisis de experimentos estadísticos 

'total de cuadros. STC tiene N- 1 grados de libertad debido a que se pierde un grado 
de libertad al ser necesario que la suma de las desviaciones ( Y¡¡ - Y.) para toda k yj 
sea cero. La suma de los cuadrados de los tratamientos tiene k - 1 grados de libertad 
debido a que se impone la restricción^, rtj(Y.j - Y.) = para las k desviaciones 
(Y.j - Y). Esta restricción surge del hecho de que EJL, ixjT } = 0. Entonces, con 
base en (12.9), el número de grados de libertad para SCE será igual a la diferencia 
entre el número de grados de libertad para STC y SCTR, 

gí(SCE) = gl(STC) - gl(SCTR) 
= N - 1 - (* - 1) 
= N - k. 

Una suma de cuadrados dividido entre sus grados de libertad da origen a lo que se 
conoce como cuadrado medio. De acuerdo con lo anterior, el cuadrado medio del 
tratamiento es 

CMTR = SCTR/(A - 1), 
y el cuadrado medio del error es 

CME = SCE/(7V - k). 

Ahora se puede argumentar que, dado que SCTR/cr 2 y SCE/cr 2 son dos va- 
riables aleatorias independientes chi-cuadrada con k - 1 y N - k grados de libertad, 
respectivamente, entonces el cociente de las medias cuadráticas de la sección 7.8 
tiene una distribución F con k -ly N -fgrados de libertad. Este cociente es la 
estadística apropiada para probar la hipótesis nula 

H : Tj = 0. 

Lo anterior puede verificarse al examinar los valores esperados de los cuadrados 
medios. Puede demostrarse que 

E(CME) = cr 2 



¿■(CMTR) = cr 2 + J f J — - , 

k — 1 

en donde a 2 es la varianza común de los errores. Como resultado se tiene que el 
cuadrado medio del error es un estimador no sesgado de cr 2 sin importar si la hipóte- 
sis nula es cierta. Por otro lado, si H es cierta, t, = para toda y, y 2« 7 t 2 = 
Entonces £(CMTR) = cr 2 ; es decir, bajo H v tanto CME como CMTR son estima- 
dores no sesgados de la varianza del error. Pero si la hipótesis nula no es de cierta, 
CMTR tiende generalmente a ser mayor que CME, dado que el término S^t; será 
positivo. En otras palabras, entre más grande sea la diferencia entre las medias de 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 411 

los tratamientos y la media global, mayor será CMTR. Pero una ocurrencia de este 
tipo sugiere que las medias de los k tratamientos no son todas iguales entre sí y de 
esta forma debe rechazarse la hipótesis nula. De acuerdo con lo anterior, la hipótesis 
nula será rechazada cuando el valor del cociente. 

k nj 

m(Y,-\) 2 /(k- l) 



k nj 

2 2 Wu - Yj) 2 /W - k) 

J= 1 1= 1 



(12.10) 



se encuentre dentro de una región crítica superior de tamaño a. 

El análisis anterior constituye la técnica del análisis de varianza para un experi- 
mento con sólo un factor completamente aleatorizado. Las fuentes de variación, 
grados de libertad, sumas de cuadrados, cuadrados medios, y el cociente /"juntos, 
constituyen lo que se conoce como tabla de análisis de varianza (ANOVA) que se 
presenta en la tabla 12.2. 

Dadas las verificaciones y¡j,j= 1, 2, ..., k, i = 1, 2, ..., n¡, el cálculo de las 
cantidades que aparecen en la tabla 12.2 puede hacerse en forma fácil mediante el 
empleo de cualquier paquete estadístico estándar para computadora. Para llevar a 
cabo el cálculo a mano, las sumas de los cuadrados pueden calcularse mediante el 
empleo de fórmulas algebraicamente equivalentes, pero desde un punto de vista de 
computación, más convenientes 

tí nj k nj t"?- 

sTc=2.2(^-y..) 2 =2 2^-^ 

y= i i= i j= i í= i ' v 

sctr = £ 2 (y, - y.) 2 = 2 f - £. 

SCE = STC - SCTR 

Debe notarse que la hipótesis nula H : /a, = /¿ 2 para el caso de dos muestras 
también puede manejarse con el método del análisis de varianza. En el capitulo 13 se 
mostrará la relación que existe entre las estadísticas Fy t de Student para k = 2. 



TABLA 12.2 Tabla de análisis de varianza para un experimento con sólo un factor comple- 
tamente aleatorio 

Fuente de 

variación gl SC CM Estadística F 

Tratamientos k - 1 12(Yj - Y f SS("P 7 - Y..f/(k - 1) SS(K ; - Y.f/(k - 1) 

Error N - k ^{Y„ - Y ,f 1Z(Y„ - Y,f/(N - k) ZXY U - Y-,f/(N - k) 

Total N - I 22(K„ - Y.) 2 



412 Diseño y análisis de experimentos estadísticos 

TABLA 12.3 Calor empleado para cinco niveles de aislamiento 

Espesor del aislamiento del techo (pulgadas) 
4 6 8 10 12 

14.4 
14.8 
15.2 
14.3 
14.6 



•? 



14.5 


13.8 


13.0 


13.1 


14.1 


14.1 


13.4 


12.8 


14.6 


13.7 


13.2 


12.9 


14.2 


13.6 




13.2 




14.0 




13.3 
12.7 



Ejemplo 12.1 Los datos que figuran en la tabla 12.3 son los resultados de un dise- 
ño completamente aleatorízado para el cual la r_sp v.ssta son los kilowats hora, 
empleados por los sistemas de calentamiento (en cientos de kilowats hora) para casas 
muy similares en un mes dado, como función de cinco niveles de aislamiento térmico 
(en pulgadas). Con base en esta información, ¿existe alguna razón para creer que 
por lo menos algunos de los consumos de energía promedio para los cinco niveles de 
aislamiento son diferentes? Supóngase un error de tipo I con a igual a 0.01. 

Se desea probar la hipótesis nula de que 

H : /i, = /i, 2 = fíj = f¿ 4 = f¿ 5 = f¿, 
o en forma equivalente 

H :tj = 0, j = 1,2, ...,5. 

Los tamaños de las muestras son /i, = 5, n 2 = 4, /i 3 = 5, n 4 = 3, y n 5 = 6; así 
que /V = 5 + 4+-+6 = 23. Las sumas de los tratamientos son T., = 73.3, 
T 2 = 57.4, r. 3 =- 69.2, T 4 = 39.6, y T 5 = 78. La suma total es T = 73.3 + 
57.4 + ••• + 78 = 317.5. Las sumas de los cuadrados son las siguientes: 

STC = 14.4 2 + 14.8 2 + ••• + 12.7 2 - ^-^- = 11.05, 

23 

SCTR = Z^ + ^ + ^ + 39^ + ^_^: = 9 . 836 , 
SCE = 11.05 - 9.836 = 1.214. 

La información se ha agrupado en una tabla de análisis de varianza que se 
muestra en la tabla 12.4. Dado que/ = 36.48 > f ^ 4 l8 = 4.58 se rechaza la hi- 
pótesis nula de que no existe ningún efecto debido a los tratamientos. En relación 
con lo anterior, existe una razón para creer que parte de los consumos promedio de 
energía son diferentes para los cinco niveles de aislamiento. 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 413 
TABLA 12.4 Tabla ANO VA para el ejemplo 12.1 



Fuente de 
variación 


gl 


SC 


CM Valor F 


Tratamientos 
Enor 


4 
18 


9.836 
1.214 


2.459 36.48 
0.0674 


Total 


22 


11.05 


/0-99. 4. 18 = 4.58 



12.4.2 Método de Scheffé para comparaciones múltiples 

Recuérdese que la hipótesis alternativa en el análisis de varianza no especifica qué 
medias son diferentes; lo que establece es que por lo menos una es diferente a las 
otras, así que el rechazo de la hipótesis nula con base en la estadística F no puede 
emplearse como fundamento para aceptar una alternativa en particular. Por 
ejemplo, supóngase que se rechaza la hipótesis nula H : ¿i, = ¿i 2 = M3 ; lo ante- 
rior significa que ¿¿3 es diferente, pero que \i y ¡i 2 son las mismas. O puede expresar 
que las tres medias son diferentes entre sí, o cualquier otra combinación posible de 
estos resultados. Por lo tanto, ésta es una razón muy fuerte para que el investigador 
necesite un análisis más completo para explorar las diferencias estadísticamente dis- 
cernibles entre cierto número de medias de población. 

Con este propósito se han propuesto varios métodos; entre éstos se encuentran el 
procedimiento de rangos estudentizados de Tukey, la prueba de rangos múltiples de 
Duncan y el métodos de Scheffé (véase [5]). Sólo se analizará el método de Scheffé 
para comparaciones múltiples debido a que tiene, en forma relativa, pocas restric- 
ciones y es preferido por muchos cuando se comparan combinaciones de las medias 
de los tratamientos. El método de Scheffé radica en la formulación de un contraste 
que es una comparación que escoge el investigador para representar una combina- 
ción lineal de cualquier número de medias de población. Un contraste es un método 
general de comparación que permite al investigador determinar, con base en la evi- 
dencia de la muestra, si el contraste dado es estadísticamente discernible. 

Se define un contraste, denotado por L, como 

k 

L = ^cjnj, (12.11) 

j= i 

en donde M, es la media del y'-ésimo nivel, y las c/s son constantes tales que 
Z* = | Cj = 0. Por ejemplo, L - /¿, - ¡jl 4 es un contraste con c, = lyc ; = -1. 
Este contraste es una comparación entre m, y /x 4 . Otro contraste es L = 3/x, - ¿a? 
- P-.i - /x 4 , con c, = 3, c 2 = c 3 = c 4 = - 1 . Este contraste es una comparación 
entre /¿, y fi 2 , /¿ 3 , y í¿ 4 - De esta forma el método de Scheffé permite que el investi- 
gador escoja tas comparaciones basadas en las características de interés. 
Un estimador no sesgado de L está dado por 

1-ícjY.j, (12-*2) 

J'=! 



414 Diseño y análisis de experimentos estadísticos 

cuya varianza se estima mediante 

* c 2 
í 2 (L) = CME 2 -• (12.13) 

j-i tt J 

Scheffé demostró (véase [7]) que todos los posibles contrastes definidos por 
(12.11) se encuentran incluidos, con una probabilidad de 1 - a, en el conjunto de 
intervalos 

L - As(L)^L^L + As(L), (12.14) 

en donde 



y L y s 2 (L) se definen mediante (12.12) y (12.13), respectivamente. Si para algún 
contraste L se obtiene un intervalo a partir de (12. 14) que no incluye al cero, enton- 
ces el contraste es estadísticamente discernible. Por lo tanto, en realidad para cada 
contraste L se está probando la hipótesis nula 

H o :L = 0. 

La esencia del conjunto de intervalos definidos por (12. 14) es que para todos los 
intervalos el nivel de confianza es de 100(1 — a). Si se va a repetir un experimento 
muchas veces, y para cada una se calculan los invervalos de confianza para todos los 
posibles contrastes mediante el empleo de (12.14), entonces en un 100(1 - a) de las 
repeticiones, todos los intervalos de confianza serán correctos. Que el intervalo de 
confianza sea del 100(1 — a) para todos los intervalos, es mejor a obtener un inter- 
valo de confianza del 100(1 - a) para cada par de medias de tratamientos, en cuyo 
caso el nivel de confianza sólo es para cada par individual y no para el conjunto en- 
tero de éstos. 

Ejemplo 12.2 En el ejemplo 12.1, compárese ¿i 4 contra fi 5 ; fx 2 , /"-3> y M* contra 
fj-s', Mi contra /jl 2 1 y /¿3 y /14 contra fx 5 , empleando el método de Scheffé con 
a = 0.01. 

Aunque pueden efectuarse comparaciones entre diversas combinaciones de los 
tratamientos, ciertas comparaciones parecen razonables si el objetivo es el orde- 
nar los tratamientos en subgrupos dentro de los cuales no aparezca ninguna diferen- 
cia apreciable. Por ejemplo, si no existe una diferencia discernible entre el empleo de 
energía promedio para aislamientos térmicos de 10 y 12 pulgadas, puede ser, desde 
un punto de vista económico, más razonable utilizar un aislamiento de 10 pulgadas 
que uno de 12. Los contrastes para las cuatro comparaciones son: 

L 1 = (1 A - ¿l, . L 2 = fJL 2 + M3 + M4 ~ 3/¿ 5 , 

L, = (i t - (i 2 , L A = 2/u, - i¿ } - (i 4 . 
Se ilustrará el cálculo del intervalo de confianza para L 2 . Dado que y 2 = 14.35 . 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 415 
y. 3 = 13.84, y. 4 = 13.2, y y., = 13, 

L 2 = 14.35 + 13.84 + 13.2 - (3)(13) = 2.39. 



La varianza estimada es 

s 2 (L 2 ) = 0.0674 

y 

s(L 2 ) = 0.3923. 



I 2 l 2 l- 2 (-3) 2 



= 0.1539, 



Dado que / 099 , 4- 18 = 4.58, A = \/{A)(4.5S) = 4.28, el intervalo de confianza 
para L 2 es 

2.39 ± (4.28)(0.3923) = (0.7109, 4.0691). 

Al seguir el mismo procedimiento se obtiene que los intervalos de confianza para los 
otros contrastes son 



L 4 



(- 0.5857,0.9857), 
(-0.4354, 1.0554), 
(- 2.2572,0.1772). 



Nótese que de los cuatro intervalos de confianza para los contrastes de interés sólo 
ei de L 2 no incluye el valor cero. Dado que la inclusión de este valor en estos interva- 
los de confianza es equivalente a la falta de significancia estadística en una prueba 
bilateral con respecto a la diferencia entre las medias, una comparación de los cuatro 
intervalos revela que no existe ninguna diferencia apreciable en el consumo de 
energía promedio para un grosor del aislamiento térmico de 8, 10 o 12 pulgadas. Se 
llega a esta conclusión debido a que los contrastes L, y L 4 no son estadísticamente 
discernibles, pero L 2 sí lo es. Dado que L 2 es igual que L 4 excepto que éste contiene a 
fj-2 (6 pulgadas de aislamiento), con base en los resultados de este experimento puede 
considerarse a un aislamiento de 8 pulgadas de espesor, como óptimo, desde un pun- 
to de vista económico. 

Debe notarse que si se rechaza la hipótesis nula de medias iguales mediante el 
empleo de la estadística F, entonces el método de Scheffé dará por lo menos un 
contraste que es estadísticamente significativo. 



12.4.3 Análisis de residuos y efectos de la violación de las suposiciones 

De la sección 9.6.3. recuérdese que, para muestras de diferente tamaño, el efecto de 
violar la suposición de varianzas iguales cuando se comparan dos medias puede ser 
sustancial. Dado que esta misma suposición se formula cuando se comparan k me- 
dias, se desean examinar las formas en que lo anterior puede detectarse y analizar los 
efectos sobre la inferencia cuando no violan las suposiciones. 



416 Diseño y análisis de experimentos estadísticos 

Una forma sencilla y útil para detectar la discrepancia con el modelo propuesto 
se basa en un análisis de residuos. Un residuo es un estimador del error aleatorio e, 7 . 
Dado que 

% = Y u - My> 
el residuo correspondiente denotado por e¡j, se define como 

e¡j = y¡j - y.j, j = 1,2, ..., k, i = 1, 2, ..., nj. 

Los residuos no son estimados en el sentido de estimación de parámetros, sino 
como estimadores de los valores de las variables aleatorias no observables e¡j con 
base en los estimadores y. y para los k medias de población. 

Si es válida la suposición de que los errores aleatorios tienen las mismas varian- 
zas para todos los niveles de k, entonces una gráfica de los residuos de cada trata- 
miento no revelará ninguna diferencia apreciable en la dispersión de los residuos alre- 
dedor del cero. Si esta dispersión es notablemente diferente para algunos tratamien- 
tos, entonces es posible que las varianzas no sean iguales para todos los tratamien- 
tos. Para normalizar la escala de ma gnitudes de los residuos es preferible emplear los 
residuos estandarizados eij/y/CME. Entonces, dado que por hipótesis los errores 
aleatorios se encuentran normalmente distribuidos, un residuo estandarizado rara 
vez se encontrará más allá de un intervalo de ± 3 

Se ilustrará el aná lisis d e residuos empleando los datos del ejemplo 12.1. Dado 
que y. t = 14.66 y VCME = 0.25%, los residuos para el primer tratamiento son 
14.4 - 14.66 = -0.26, 14.8 - 14.66 = 0.14, 15.2 - 14.66 = 0.54, 14.3 - 
14.66 = -0.36, y 14.6. - 14.66 = -0.06, y los residuos correspondientes estandari- 
zados son -1.00, 0.54, 2.08, -1.39 y -0.23. Al seguir este procedimiento se obtienen 
todos los residuos estandarizados que aparecen en la tabla 12.5. 

La figura 12.1 ilustra los residuos estandarizados para cada tratamiento. Se ob- 
serva que no existe ninguna diferencia notable en la dispersión para cada uno de los 
cinco tratamientos excepto para uno de los residuos del primer tratamiento. De 
acuerdo con lo anterior, parece que la hipótesis de que las varianzas de los cinco tra- 
tamientos son las mismas, es razonable en este caso. También se encuentran dispo- 
nibles en la literatura estadística procedimientos formales para verificar la hipótesis 
de igualdad entre las k varianzas. Dos de los usados con más frecuencia son la 
prueba de Bartlett y la prueba de Hartley. Se invita al lector a que consulte [5] para 
conocer los detalles. 

TABLA 12.5 Residuos estandarizados para el ejemplo 12.1 



4 


6 


8 


10 


12 


-1.00 


0.58 


-0.15 


-0.77 


0.39 


0.54 


-0.96 


1.00 


0.77 


-0.77 


2.08 


0.96 


-0.54 





-0.39 


-1.39 


-0.58 


-0.92 




0.77 


-0.23 




0.62 




1.16 
-1.16 



12.4 Análisis de experimentos unifactoríales en un diseño completamente aleatorio 417 






2 - 



1 - 



o 

■a 

nj 
_N 
*C 

nj 

■a 

c 

tí 

(A 

o 

3 

-a 



o¿ 



1 - 



_ • 

• • • 

• * 



6 8 10 

Espesor del aislamiento del techo 



12 



FIGURA 12.1 Gráfica de los residuos estandarizados para los cinco tratamientos del ejemplo 12.1 



I 



Como se examinó en el capítulo 9, el efecto sobre las inferencias con respecto a 
las medias, cuando los errores aleatorios no se encuentran normalmente distri- 
buidos, es menor mientras el alejamiento de la normalidad no sea muy severo. De es- 
ta forma, la estadística Fen el análisis de varianza es robusta con respecto a los ale- 
jamientos de la hipótesis de normalidad. Si las varianzas de todos los tratamientos 
no son iguales entre sí, puede aumentarse el tamaño de la región crítica de la 
estadística F para el caso de efectos fijos; pero, como se analizó en el capítulo 9, 
este efecto puede minimizarse mediante el empleo de muestras de igual tamaño para 
cada tratamiento. En otras palabras, en el análisis de varianza, la estadística F tam- 
bién es más robusta ante varianzas desiguales siempre y cuando los tamaños de la 
muestra de los tratamientos sean iguales. Desafortunadamente este resultado no se 
extiende al caso de efectos aleatorios en el que la violación de la hipótesis de varian- 
zas iguales generalmente tendrá efectos considerables sobre las inferencias aun para 
muestras del mismo tamaño. 

La hipótesis 1 crucial en el desarrollo del análisis de varianza es que los errores 
aleatorios son independientes. Si los errores son interdependientes, el tamaño real de 
la región crítica puede ser, en forma substancial, más grande (cinco o más veces) que 



418 Diseño y análisis de experimentos estadísticos 

el tamaño dictado al seleccionar la probabilidad del error de tipo I. Se invita al lec- 
tor a que consulte [3], para una revisión de las consecuencias que surgen al violar las 
suposiciones en el análisis de varianza. 



12.4.4 El caso de efectos aleatorios 

Para introducir el caso de efectos aleatorios se utilizará el siguiente análisis breve. Para 
una presentación más completa se sugiere consultar [6]. Para el modelo de efectos 
aleatorios se formuló la suposición de que los niveles empleados en el experimento 
fueron seleccionados en forma aleatoria de una población de posibles niveles. Ade- 
más se supondrá que t,- ~ N(0,a 2 T ), en donde a 2 T es la varianza de los tratamientos 
aleatorios t,. La descomposición de la suma total de cuadrados y el análisis de va- 
rianza es igual a la del caso de efectos fijos para un experimento con sólo un factor, 
pero en este caso el valor esperado del cuadrado medio de tratamiento *s diferente. 
Dadas muestras de igual tamaño n para todos lo c niveles, se puede demostrar que 

£(CME) = a 2 , 

y (12.15) 

£(CMTR)= a 2 + nal. 

La región apropiada de rechazo sigue siendo la misma ya que un valor grande 
del cociente entre CMTR y CME sugiere que debe rechazarse la hipótesis nula 
//„: a 2 r = 

Ejemplo 12.3 Una planta de enlatado emplea un número muy grande de máquinas 
para su proceso de llenado. Se da por hecho que cada máquina vacía un peso especi- 
ficado del producto en cada lata. El gerente de la planta sospecha que existe una 
gran variación en la cantidad del producto que se vacía entre las distintas máquinas. 
Para verificar su sospecha, escoge al azar cuatro máquinas y pesa el contenido de 
cinco latas, seleccionadas en forma aleatoria, llenadas por cada una de las cuatro 
máquinas. Los resultados se muestran en la tabla 12.6. ¿Qué proporción de la va- 
rianza en los pesos puede atribuirse a las diferencias que existen entre las máquinas? 
Primero se llevará a cabo un análisis de varianza para saber si puede rechazarse 
H n : al = 0. Los totales de las máquinas son T , = 6.14, T 2 = 6.03, T.-¡ = 5.99 y 



TABLA 12.6 Contenido en peso para un proceso de llenado 







Máquina 






/ 


2 




3 


4 


1.24 


1.20 




1.19 


1.18 


1.22 


1.20 




1.20 


1.18 


1.22 


1.21 




1.19 


1.19 


1.23 


1.22 




1.20 


1.18 


1.23 


1.20 




1.21 


1.20 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 419 
TABLA 12.7 Tabla ANO VA para el ejemplo 12.3 



Fuente de 
variación 


g> 


SC 


CM 


Valor F 


Tratamientos, 
Error 


3 
16 


0.004695 
0.0012 


0.001565 
0.000075 


20.87 


Total 


19 


0.005895 


/o.95. 3. 16 = 


= 3.24 



T 4 = 5.93. El total global es T.. = 24.09, y los tamaños de todas las muestras 
son n = 5. Entonces 

24 09 2 

STC = 1.24" + 1.22 2 + ••• + 1.20 2 ~ = 0.005895, 

20 

SCJR = 6.14' + 6.03' + 3.99* + 3.93' _ 24_09> = Q ^ 

SCE -= 0.005895 - 0.004695 = 0.0012. 

La tabla ANOVA se da en la tabla 12.7. Dado que / = 20.87 > / 095 . 3 , 16 = 3.24, 
se rechaza la hipótesis nula de que no hay variación debida a las máquinas. 

Para estimar la varianza en los pesos y qué proporción de ésta puede atribuirse a 
las diferencias entre las máquinas, recuérdese que para un modelo de efectos aleato- 
rios 

Var(Y,j) = a 2 + a 2 T . 

De (12. 15), un estimado de a 2 es CME = 0.000075, y un estimador de a 2 + 5o- 2 . es 
CMTR = 0.001565. En otras palabras, 

0.000075 + 5í 2 = 0.001565 

, 0.001565 - 0.000075 



= 0.000298 
es un estimador de o- 2 . Entonces un estimador de la varianza en el peso es 

S \Y U ) = 0.000075 + 0.000298 
= 0.000373, 
de la cual 0.000298/0.000373, o el 79.89%, se debe a diferencias entre las máquinas. 



420 Diseño y análisis de experimentos estadísticos 

12.5 Análisis de experimentos con sólo un factor en un diseño en 
bloque completamente aleatorizado 

Recuérdese que cuando las unidades experimentales no son homogéneas, se introdu- 
ce una fuente potencial de variación que, en general, puede afectar la inferencia con 
respecto al factor de interés. En estos casos es necesario emplear un diseño alea- 
torizado para remover la fuente externa de variación con lo que se incrementa la sen- 
sitividad para detectar diferencias entre los tratamientos de interés. 

Ejemplo 12.4 La agencia de Protección del Medio Ambiente (APMA) anualmente 
clasifica de acuerdo con la eficiencia en el quemado de combustible a todos los auto- 
móviles disponibles para venta de Estados Unidos. Sin embargo, es un hecho muy 
conocido que las clasificaciones de la APMA se basan, principalmente, en pruebas 
de laboratorio y de esta forma se tiende a sobreestimar la eficiencia real en el quema- 
do de combustible. Una empresa independiente desea determinar si existe una dife- 
rencia, estadísticamente discernible, en la eficiencia del quemado promedio de com- 
bustible bajo condiciones de rodamiento real para cinco automóviles compactos que 
tienen la misma clasificación APMA. La empresa tiene acceso a un recorrido de 
400 millas que incluye tanto el manejo en ciudad como en carretera. Estúdiense los 
aspectos de diseño de este experimento. 

Es claro que los tratamientos están constituidos por los cinco automóviles y que 
la respuesta medible es el número de millas por galón logradas por los automóviles 
durante el recorrido de 400 millas. Pero, ¿cuál es la unidad experimental?; ésta tiene 
que ser la persona que maneja el automóvil, pero no es común que una empresa que 
realiza pruebas utilice un conductor para todo el experimento. Supóngase que se es- 
cogen cuatro conductores para el experimento. Aunque la empresa explicará el pro- 
pósito del experimento en forma breve, a los conductores ya se ha introducido otra 
fuente de posible variación. No importa qué tan similares sean los conductores entre 
sí; a pesar de todo existe un riesgo potencial de tener efectos por los conductores que 
pueden tomarse en cuenta mediante la creación de cuatro bloques, uno para cada 
conductor, de tal manera que los tratamientos dentro de cada bloque (los cinco 
automóviles) se apliquen a unidades experimentales homogéneas (el mismo conduc- 
tor). La pregunta que surge en este momento es, ¿cómo asignar los automóviles a los 
conductores? El diseño aleatorizado especifica que la asignación de los tratamientos 
a las unidades experimentales dentro de cada bloque debe hacerse en forma aleato- 
ria. De esta manera, para asignar el orden en el cual serán manejados los automóvi- 
les por cada conductor, se concibe un proceso de selección aleatorio simple. Por 
ejemplo, la asignación puede hacerse de acuerdo con la tabla 12.8, la cual constituye 
un diseño en bloque completamente aleatorizado. 

A continuación se analizará un experimento con sólo un factor en un diseño en 
bloques completamente aleatorizado. Primero será necesario generalizar para des- 
pués regresar al ejemplo de la eficiencia en consumo de combustible e ilustrar los pa- 
sos del cálculo. Las observaciones del experimento pueden colocarse como se mues- 
tran en la tabla 12.9. 



12.5 Análisis de experimentos con sólo un factor en un diseño en bloque 421 
TABLA 12.8 Diseño en bloque completamente aleatorizado para el ejemplo 12.4 

Automóvil 

1 A, Ai 

Conductor 



1 


A, 


Ai 


A, 


A, 


Ai 


2 


A, 


Ai 


A 4 


A 2 


A, 


3 


A 4 


A, 


\ A, 


A, 


A 2 


4 


A 2 


A, 


A 4 


A, 


A 3 



Supóngase que se tienen k tratamientos y n bloques, el modelo matemático para 
un diseño con sólo un factor en bloques completamente aleatorizado es 



Y¡j = n + & + Tj + e¡j i = I, 2, ...-, n, 

j = 1,2, ...,k, 



(12.16) 



en donde Y,j es la observación de la respuesta en el i-ésimo bloque y bajo eiy-ésimo 
tratamiento, t¿ es la media global, /3, es el efecto sobre la respuesta debido al i-ésimo 
bloque, t, es el efecto debido alj-ésimo tratamiento y s u es el error aleatorio. Como 
en el caso anterior, se da por hecho que los errores son variables aleatorias indepen- 
dientes, tales que £<, ~ iV(0, a 2 ) para toda i yj. Si tanto los tratamientos como los 
bloques son de efectos fijos, entonces las /3,'y los r¡ son parámetros fijos que repre- 
sentan desviaciones de las medias de los bloques y los tratamientos de la media glo- 
bal, respectivamente. En otras palabras, 



/3, = ¡í¡. - n., i = 1,2, ...,«, 



(12.17) 



r ) = H-j 



M, 



j= 1,2,..., k. 



en donde n¡. y fi.j son las medias de las población para el i-ésimo bloque y elj-ésimo 
tratamiento, respectivamente. 

Al igual que en el diseño completamente aleatorizado, se supone que las varianzas de 
la población para todos los tratamientos son iguales. También debe suponerse que el 
efecto del tratamiento sobre la respuesta es el mismo para todos los bloques; en otras 



TABLA 12.9 Arreglo común de las observaciones para un diseño con sólo un factor en blo- 
que completamente aleatorizado 



Bloque 



i . 



y» 

y } 2 

Ya 
Y„i 



Tratamiento 

"• j 

Y 2J 
Y„ 
Y„ 



Yn 

Y 2k 

Y, k 
Y* 



í« 



422 Diseño y análisis de experimentos estadísticos 

palabras, puede obtenerse la misma conclusión a partir de todos los bloques con res- 
pecto al efecto del tratamiento. Cuando esto ocurre se dice que los tratamientos y los 
bloques no interactúan, y sus efectos individuales sobre la respuesta son aditivos. La 
noción de interacción entre dos factores se examinará en la siguiente sección. 

Para un diseño de un sólo factor en bloque completamente aleatorízado, el prin- 
cipal propósito es determinar si las diferencias en los tratamientos son estadística- 
mente significativas, es decir, para el caso de efectos fijos se desea probar la hipóte- 
sis nula 

H : T] = Q, j= 1,2,...,*. 

El lector puede sorprenderse con respecto al efecto del bloque, pero el interés, en rea- 
lidad, no recae en determinar si éste es estadísticamente apreciable. Todo lo que se 
desea hacer es aislar el efecto del bloque y removerlo del error experimental, de tal 
manera que se incremente la e^cifcia para detectar diferencias reales entre los tra- 
tamiento*;, si es que éstas existen. 

Para el procedimiento del análisis de varianza, puede escribirse el modelo dado 
por (12.16) como 

6y = yy'-A-ft-Ty. (12.18) 

Al sustituir (12.17) para /3, y r, en (12.18), se tiene 

e¡j = Y u - fx - /*,. + M " H + fí- (12.19) 

Ahora, al reemplazar (12.17) para ¿3, y r, y (12.19) para e, 7 en (12.16) se obtiene la 
siguiente identidad: 

Y u -tí = (&. -ft) + {fx.j - M ) + (Y,j - n, - fi.j + fi). (12.20) 

En otras palabras, la desviación de una observación con respecto a la media global 
tiene tres componentes (la desviación debida a los bloques, a los tratamientos y al 
error aleatorio). 

Para las observaciones que se encuentran en la tabla 12.9 se definen las siguientes 
estadísticas: 



T, = £ Y ¡Jt 


Y, = T¡./k, i = 1,2,. 


.., n 




Y.j=T.j/n, y=l,2... 


..,k 


¡=ly=l 


Y = T./nk. 





Por lo tanto, la identidad en términos de la muestra correspondiente a (12.20) es 
Y,j -?.. = (Y, - Y) + (Y, - ?..) + Wj - Y,. - Y.j + Y..). 



12.5 Análisis de experimentos con sólo un factor en un diseño en bloque 423 

Al elevar al cuadrado ambos miembros y llevar a cabo la suma sobre i y y se tiene la 
relación 

2 2 (y u - T.y = ¿ i ( 7, - 1.? + i i (?.j - Y.y 

i-l>=l ;=ly=l ¡=\j=\ 

n k 

+ 22 (Y,j - Y- - Y.j + Y.) 2 , 

/= i j= i 

en donde puede demostrarse que los tres términos que contienen productos cruzados 
se reducen a cero. Ésta es la ecuación fundamental para el análisis de varianza, y es- 
tablece que la suma total de los cuadrados STC se separa en la suma de los cuadra- 
dos de los bloques SCB, la suma de los cuadrados de los tratamientos SCTR y la 
suma de los cuadrados de los errores SCE. 

Por causa de la restricción 2JL , 2* = , ( Y¡j - Y.) = 0, el número de grados de li- 
bertad_para STC es igual a nk - 1 . En forma similar, por causa de las rtitricciones 
2?_, (7, - Y ) - y 2f_, (Y.j - Y.) = 0, el número de grados de libertad 
para SCB y SCTR son iguales a/i-lyt-1, respectivamente. Se sigue que 

gl(SCE) = gl(STC) - gl(SCB) - gl(SCTR) 

= nk - 1 - (n - 1) - (k - 1) 

= (/! - IX* - O- 

Puede demostrarse que bajo las suposiciones del modelo y la hipótesis H : r¡ = 
0, SCTR/o- 2 y SCE/cr 2 son dos variables aleatorias independientes con una 
distribución chi-cuadrada con k - 1 y (n - 1) (k - 1) grados de libertad, en forma 
correspondiente. También puede demostrarse que los valores esperados de los 
cuadrados medios del error y del tratamiento son 

£(CME) = o- 2 



n 2 T j 



£(CMTR) = a- + 



I 



Entonces, con base en el argumento previo, la estadística de prueba apropiada es el 
cociente de los cuadrados medios del tratamiento y del error, el cual tiene una distri- 
bución Fcon k - 1 y (n - 1) (k - 1) grados de libertad. Como antes, se sugiere una re- 
gión crítica de tamaño a, ya que un valor grande del cociente tiende a implicar que 
no todas las medias de los tratamientos son las mismas. El análisis de varianza apa- 
rece en la tabla 12.10. 

Debe notarse que es posible una prueba para el efecto de bloque al formar el co- 
ciente entre CMB y CME y compararlo con la región crítica que se encuentra en el 
extremo superior de una distribución Fcon n - 1 y (n - 1) (k - 1) grados de libertad. 



424 Diseño y análisis de experimentos estadísticos 

TABLA 12.10 Tabla de análisis de varianza para un experimento con sólo un factor en blo- 
que completamente aleatorizado 

Fuente de 

variación gl SC CM Estadística F 

Bloques n - 1 22(y; - Y..) 1 

Tratamientos* - 1 22(7, - Y..) 2 CMTR = SCTR/(A - 1) F = — — 

_ _ _ CME 

Error (/i - l)(/t - 1) 22(K J - Y, - Y¡ + Y.f CME = SCE/(n - 1)(* - 1) 

Total nk - 1 22(}' i/ - ~Y f 



Lo anterior no constituye en realidad una parte integral del análisis. Después de 
todo, se escoge un bloque completamente aleatorizado para un experimento con só- 
lo un factor para remover el efecto potencial de la fuente de variación extraña. Si tal 
efecto es estadísticamente significativo, realmente no es de gran interés. 

Para realizar cálculos a mano, es preferible emplear las siguientes fórmulas que 
son equivalentes, en un sentido algebraico, para obtener las sumas de cuadrados. 

n k _2 

;= i j= i "" 

1 " T 2 

SCB = l^Tl-^- 

k i=l nk 

1 * T 2 

SCTR = - Y T] ■,- — 
«_,-=i nk 

SCE = STC - SCB - SCTR 

Para ilustrar los pasos de cálculo, supóngase que los resultados del experimento 
descrito en el ejemplo 12.4 son los que se muestran en la tabla 12.1 1 (las mediciones 
están dadas en millas por galón para un recorrido de 400 millas). Para probar la hi- 
pótesis nula 

H : Tj , = 0, J = 1,2 5, 

las sumas de cuadrados dan 

STC = 33.6 2 + 36.9 2 + ••• + 32.8 2 - ^^- = 102.212, 

20 

SCB = '56.1- + -- + .72.4 2 _ 672^ 
5 20 

SCTR = l39 " 52 + - + 133 - 32 - ^ = 3 8 . 92, 
4 20 



k 



12.5 Análisis de experimentos con sólo un factor en un diseño en bloque 425 
TABLA 12.11 Datos experimentales para el ejemplo 12.4 



Conductor 


A, 


A 2 


Automóvil 
A } 




A A 


A s 


Totales 


1 

2 
3 
4 

Totales T. t 


33.6 
36.9 
34.2 
34.8 

= 139.5 


32.8 
36.1 
35.3 
37.1 

T 2 = 141.3 


7-3 


31.9 
32.1 

33.7 
34.8 

= 132.5 


T.4 


27.2 
34.4 
31.3 
32.9 

= 125.8 


30.6 
35.3 
34.6 
32.8 

T s = 133.3 


TV = 156.1 
7Y = 174.8 
Ty = 169.1 
7V = 172.4 

T. = 672.4 



SCE = 102.212 - 41.676 - 38.092 = 22.444. 

La tabla ANOVA se encuentra dada en la tabla 12. 12. Dado que / = 5 .09 > / 95 , 4t 12 
= 3.26, se rechaza la hipótesis nula de igualdad de efecto de tratamiento. Por 
lo tanto, existe una razón para creer que las eficiencias en consumo medio de com- 
bustible de algunos de estos automóviles no son iguales. 

La identificación y eliminación del efecto de los bloques de la variación total per- 
mite que se hagan comparaciones múltiples sobre los tratamientos, como ya se vio 
en la sección 12.4.2. Pueden definirse y probarse un gran número de contrastes para 
determinar si son estadísticamente apreciables al seguir el procedimiento delineado 
en la sección 12.4.2. La única excepción es que la cantidad denotada por A en 
(12.14) ahora está dada por 



A = y/(k- 1)/,. 



*- 1. (íi-ix*-i). 



! 



A veces los bloques no son de efectos fijos, es decir, se eligen para el experimento 
en forma aleatoria de una población de posibles bloques. Si los tratamientos son de 
efectos fijos, la única diferencia con respecto al caso previo se encuentra en la supo- 
sición de /3,; i.e., /3, ~ N(0, a 2 p ); pero el análisis sigue siendo el mismo, aun para 
comparaciones múltiples entre los tratamientos. ¡ ; ¡I 

Además de la suposición de independencia, se hacen dos suposiciones clave para 
un diseño en bloques aleatorizados: las varianzas de cada tratamiento son iguales y 



TABLA 12.12 Tabla ANOVA para el ejemplo 12.4 



Fuente de 
variación 


gl 


SC 


CM 


Valor F 


1 


Bloques 

Tratamientos 

Error 


3 

4 

12 


41.676 
38.092 
22.444 


9.523 
1.870 


5.09 


% 


Total 


19 


102.212 


fots. i. 12 = 


= 3.26 


i. ; .§M 



426 Diseño y análisis de experimentos estadísticos 

los bloques y tratamientos no interactúan. La presencia de interacción entre bloques 
y tratamientos implica que no es posible evaluar el efecto del tratamiento sobreto- 
dos los bloques, sino que éste se debe describir en forma individual para cada blo- 
que. Si además los efectos del bloque y del tratamiento son aditivos, la estadística F 
no es sensitiva a la violación de la suposición de varianzas iguales; para estas, si existe 
una interacción entre bloques y tratamientos, la estadística F se encuentra sesgada 
negativamente, es decir, si se rechaza la hipótesis nula de que no existe diferencia al- 
guna entre los tratamientos, entonces puede confiarse en que existe una diferencia 
entre los tratamientos. Pero si la hipótesis nula no se rechaza, esto se puede deber, ya 
sea a un sesgo negativo (la presencia de interacción) o a la ausencia de diferencias 
entre los tratamientos. Puede emplearse un procedimiento desarrollado por Tukey, 
el cual se describe en [4], para probar la interacción entre bloques y tratamientos. 

Si se violan tanto la suposición de varianzas iguales como la de aditividad, la 
estadística F para las diferencias en los tratamientos tiene un sesgo positivo; en otras 
palabras, si se rechaza la hipótesis nula de que no existe ninguna diferencia entre los 
tratamientos, esto no necesariamente implica que las diferencias entre los tratamien- 
tos sean estadísticamente significativas. Cuando existe preocupación sobre estas su- 
posiciones, debe usarse una prueba F conservadora desarrollada por Geisser y 
Greenhouse (véase [4]). Los pasos de cálculo para esta prueba son iguales a los del 
método convencional ya descrito, excepto que el número de grados de libertad para 
este caso es de 1 y n - 1 en lugar de k - 1 y (/? - 1) (k - 1), para cada uno. Si para am- 
bas pruebas se rechaza la hipótesis nula, puede tenerse la seguridad de que las dife- 
rencias entre los tratamientos son estadísticamente significativas. Si ambas pruebas 
no rechazan a H , entonces se puede proceder como si no existiese diferencia alguna 
entre los tratamientos. 



12.6 Experimentos factoriales 

Hasta este momento la presentación se ha dirigido hacia el análisis del efecto de un 
factor sobre la variable respuesta. Pero en muchas situaciones prácticas es necesario 
investigar, en forma simultánea, los efectos que tienen varios factores sobre la res- 
puesta. Una forma muy eficiente de lograr lo anterior es mediante el uso de un expe- 
rimento factorial en el que todos los niveles de un factor se combinan con todos los 
niveles de cualquier otro para formar los tratamientos. Por ejemplo, en un experi- 
mento factorial de dos factores en el que uno tiene tres niveles y el otro dos, existirán 
3x2 = 6 tratamientos. En otras palabras, la respuesta será observada bajo seis tra- 
tamientos diferentes. 

Con los experimentos factoriales no sólo es posible evaluar los efectos indivi- 
duales de los factores sobre la respuesta, sino que también es posible determinar el 
efecto causado por sus interacciones. El efecto de un factor sobre una respuesta es 
simplemente el cambio en ésta, causado por un cambio en el nivel del factor. Pero si 
el efecto de un factor sobre la respuesta es diferente para distintos niveles de otro 
factor, entonces se dice que los dos factores interactúan entre sí. La presencia de in- 
teracción indica que el efecto de los factores sobre la respuesta es no lineal y de esta 
forma no puede asumirse un modelo aditivo. 



12.6 Experimentos factoriales 4X1 

Para ilustrar la interacción entre dos factores, considérese lo siguiente. Un fabri- 
cante de partes electrónicas emplea dos hornos y dos temperaturas con el propósito 
de probar la duración de cierto componente. Se seleccionan cuatro componentes de 
algún lote y se prueba su duración de acuerdo con las cuatro combinaciones posibles 
de hornos y temperaturas. El tiempo de duración de los componentes en horas es el 
siguiente: 



O, 



2 



6.29 
5.80 



5.95 
6.32 



Los tratamientos para las cuatro posibles combinaciones de hornos y temperatu- 
ras son: O, T\ , 0¡ T 2 , 2 T, , y 2 T 2 . La diferencia en duración para los tratamientos 
O i T 2 y 0, 7, representa un estimador del efecto en la duración de los componentes en 
el primer horno, a consecuencia de un cambio en la temperatura. Se observa que este 
estimador es 5.80 - 6.29 = - v. 49. La diferencia en duración para los tratamientos 
2 T 2 y 2 T l también es un estimador del efecto de la temperatura sobre la duración, 
pero ahora en el segundo horno. Esta diferencia es de 6.32 - 5.95 = 0.37. Dado 
que estos dos estimadores son bastantes diferentes entre sí, el efecto de la temperatu- 
ra en la duración del componente depende del horno en que éste se coloque. De esta 
forma, existe una interacción entre el horno y la temperatura. También se observa la 
misma ocurrencia al estimar el efecto del horno para 7, (5.95 - 6.29 = - 0.34) y 
7 2 (6.32 - 5.80 = 0.52). Estos resultados se ilustran en forma gráfica en la figu- 
ra 12.2 en donde el eje y representa las observaciones de la respuesta; el eje x repre- 



FIGURA 12.2 Efectos que interactúan 



y 








6.40 


- 


*v 


^ 0l 


6.20 




\. 


^ 


6.00 


- 


^ 


\ 


5.80 


- 


1 


\ , 

i 



Ti 



428 Diseño y análisis de experimentos estadísticos 

senta los niveles de un factor y los puntos graneados representan a cada nivel del 
otro factor. Si existe poca interacción entre el horno y la temperatura, las lineas que 
aparecen en la gráfica serían casi paralelas. 

La determinación de si los efectos individuales o interacciones son estadística- 
mente apreciables puede hacerse sólo mediante inferencia estadística y no mediante 
el empleo de un análisis gráfico. En los siguientes párrafos se examinará un modelo 
no aditivo para un experimento factorial de dos factores en un diseño completamen- 
te aleatorizado. Se pueden analizar experimentos factoriales con más de dos factores 
mediante la extensión del procedimiento que a continuación se examina. 

En un experimento factorial que incluye dos factores A y B con a y b niveles, res- 
pectivamente, el número de tratamientos es igual a o x b. Si no se puede suponer un 
modelo aditivo (no interacción), sólo es posible una prueba para determinar si 
un efecto por interacción es estadísticamente apreciable, si se toma más de una ob- 
servación de la respuesta para cada tratamiento. Lo anterior se debe a que no puede 
determinarse para cada estimador de la variación del error aleatorio a menos que la 
respuesta se observe más de una vez cada tratamiento, es decir, la evaluación de 
la variación del error aleatorio se basa en las diferencias en la respuesta observada 
bajo el mismo tratamiento. No está por demás notar que para un diseño completa- 
mente aleatorizado, los tratamientos deben aplicarse a unidades experimentales ho- 
mogéneas sin importar cuántas veces se repita el proceso. 

Si se suponen n aplicaciones de los ab tratamientos, el modelo matemático no 
aditivo para un factorial de dos factores es 

Y Uk = ix + a¡ + j8 ; + (aB) u + e iJk i = 1, 2 a, (12.21) 

j= 1,2 b, 

k = 1,2, ..../i, 

en donde Y iJk es la £-ésima observación de la respuesta para el tratamiento (/, y), í¿ es 
la media global, a, es el efecto principal causado por el /-ésimo nivel de A, /3, es el 
efecto principal causado por el ./-ésimo nivel de B, (a/3), 7 es el efecto de interacción 
para el /'-ésimo nivel de A y ely'-ésimo nivel de B y s ijk es el Ar-ésimo error aleatorio en 
el tratamiento (/, j). Como antes, se supone que las varianzas de la población para 
cada uno de los ab tratamientos son iguales, y que los errores aleatorios son va- 
riables aleatorias independientes, normalmente distribuidas, con medias iguales a 
cero y varianza común a 2 . 

Si se supone que los factores A y B son de efectos fijos, entonces a,, B¿, y (aB)¡j 
son parámetros fijos, tales que 

,=i 7=1 



b 



2 (aj8) l7 = 2 («j8) f> = 0. 



.; 'i 



para toda 
Las siguientes hipótesis son de interés: 



12. 6 Experimentos factoriales 429 



1. //„:(a/3), v = para toda i y j, 

2. H :a¡ = para toda/, 

3. H :fij = para toda j . 

Las últimas dos hipótesis incluyen los efectos (individuales) principales de los facto- 
res A y B, y la primera hipótesis pertenece a la posible interacción entre A y B. Si 
existe una fuerte interacción entre A y B, los resultados de las pruebas para 
demostrar un efecto principal causado por A o B pueden no ser significativos. Lo 
anterior es cierto debido a que los dos factores pueden interaccionar en tal forma 
(direcciones opuestas) que los efectos se compensen para uno o ambos factores. Este 
proceso de compensación puede evitar la detección de efectos principales significati- 
vos con base en una comparación entre las medias del nivel del factor. 

Para desarrollar el procedimiento del análisis de varianza, puede escribirse el 
modelo (12.21) en términos de las desviaciones, al igual que en los casos previos. 



Y¡jk - M = (Mí- - M) + (M-/ ~ /*) 



fj.;.. 



(l.j. + fi) + (Y ijk - kj), (12.22) 



en donde n¡.. es la media real del /'-esimo nivel de/1, /jl.j. es la media real del j'-ésimo 
nivel de B y fi¡j. es la media real del tratamiento (/, j). De esta forma, la igualdad dada 
por (Í2.22) establece que la desviación de una observación con respecto al promedio 
global está formada por cuatro componentes: las desviaciones causadas por el efecto 
principal de A; por el efecto principal de B; por el efecto de interacción entre A y B, 
por el error aleatorio. 

Las observaciones de un factorial con dos factores en un experimento completa- 
mente aleatorizado pueden colocarse como se muestra en la tabla 12.13. De ésta se 



TABLA 12.13 Arreglo común de las observaciones para un diseño factorial con dos factores 
y n observaciones por tratamiento 



Nivel 1 



A 

Nivel ¡ 



Nivel a 



Nivel 



B Nively y„, ■•• Y yk - >„ 



Nivel b Y íbt - Y lbk - Y lbR 



Y iJt - Y 



Y,b\ '*" Y ibk ■•■ Y¡ 



■- - Y 

ijk * ijft 



Y u ii '" Y M •■• Y„\ 



Y„j\ ' ' ' ' u¡k ' ' ' 'ü¡n 



Y a b\ "' Y„hk "" '»* 



430 Diseño y análisis de experimentos estadísticos 
definen las siguientes estadísticas: 



b n a n a b 



T¡ — Zj Zj Y¡jk> T.y — Zj 2j Y¡j>" ^ * ~ 2j 2j 'ijk> 

j=i t=i i=i *=i 1=1 y- 1 

Y,. = T,./nb, Y.j. = T.j./na, Y.. k = T.Jab, 

n 
a b n 

T =22 2 Y iJk , Y = T./nab. 
í=i j=i *=i 

Nótese que T¡. (7 V .) es la suma de todas las observaciones en el /'-ésimo (/-ésimo) ni- 
vel de A (B) y T..¿ es la suma de todas las observaciones en la /t-ésima repetición. En 
forma similar, T¡j. es la suma de todas las observaciones en el tratamiento (i, j). Las 
definiciones correspondientes para las mediac de la muestra deben ser aparentes. 

Al reemplazar los parámetros en (12.12) con sus correspondientes estimadores, 
se tiene 

(Y U k ~ Y-) = (Yi- - Y) + (Y.j. ~ Y) 

+ (7y. - ?,. - Y.j. + Y.) + (Y iJk - Y u ). 

Si se eleva al cuadrado la identidad con base en la muestra anterior y se suman sobre 
i, j y k, todos los términos que contienen productos cruzados se reducen a cero, y se 
tiene el siguiente resultado: 

22 2(Y, Jk - Y-) 2 -nb2 (Yi- ' Y-) 2 + ™2 (?,■ ' Y? 

i j k ¡ j 

+ n 2 2 (Yu ' Y - Yj- + Y-? + 2 2 2 (Yijk - Yj-f- (12-23) 

i j i j k j 

En otras palabras, la suma total de cuadrados se separa en las sumas de cuadrados 
debidas: al factor A (SCA), el factor B (SCB), a la interacción entre A y B (SCAB) y 
a los errores (SCE). 

También puede escribirse el modelo (12.21) en términos de las desviaciones 
causadas por los tratamientos y el error aleatorio, es decir 

(Y ijk - M ) = (Mo- " M) + (Y¡jk ~ M,,)- (12.24) 

En esta forma, la desviación debida a los tratamientos abarca los efectos debidos a A, 
B y la interacción A B. Al sustituir en (12.24) las correspondientes estadísticas, se 
tiene 

(Y i]k - Y.) = (?¡j. - ?...) + (Y iJk - Y ir ), 



12.6 Experimentos factoriales 431 
las que, a) elevarse al cuadrado y sumar sobre i, j y k, dan como resultado 

2 2 2 (r uk - T..y = nZ2 (y u . - ?...) 2 +,2 2 2 (^ - V. 

i y ic i y i j k 

O 

STC = SCTR + SCE. (12.25) 

De (12.23) se desprende que 

SCTR = SCA + SCB + SCAB. (12.26) 

Puede demostrarse que, con base en (12.23), la descomposición del número de gra- 
dos de libertad es la siguiente: 

gl(STC) = gl(SCA) + gl(SCB) + gl(SCAB) + gl(SCE), 



inab - 1) = (a-- 1) + (b - 1) + (a - \){b - 1) + ab(n - 1). 

Para las suposiciones del modelo y la hipótesis de interés, SCA/o- 2 , SCB/cr 2 , 
SCAB /o- 2 , y SCE/ a 2 son variables aleatorias independientes chi-cuadrada con (a - 
1), (¿» - 1), (a - 1) (¿» - 1) y ab (n - 1) grados de libertad, para cada una. De acuer- 
do con lo anterior, la estadística de prueba para los efectos principales y de interac- 
ción son los cocientes entre los cuadrados medios, correspondientes y cuadrado 
medio del error y tienen una distribución F. Al igual que para los casos anteriores, 
una región crítica de tamaño a en el extremo superior de la región es la apropiada 
para cada caso. Puede observarse que el resultado anterior sigue siendo válido al 
examinar los valores esperados de los cuadrados medios. Para el caso de efectos fi- 
jos, estos valores son los siguientes: 



£(CME) = o- 2 , 
£(CMA) = o- 2 + nb 

£(CMB) = o- 2 + na 

£-(CMAB) 2 + n 



Sa 2 

a - r 
b - r 

2 2 (a/3) 2 



Ui - \){b - 1) 



Si no existe ninguna interacción entre A y B (es decir, si (a/3), v = para toda /' y 
7), entonces CMAB y CME tienen el mismo valor esperado y los efectos son aditivos. 
Pero si el cociente CMAB /CME tiene un valor suficientemente grande, esto sugeri- 
ría una interacción estadísticamente apreciable entre A y B y, por lo tanto, 
debe rechazarse la hipótesis nula. De manera similar si a, = para toda /, CMA y 
CME tienen valores esperados iguales y no existe un efecto principal causado por A. 
Pero un cociente grande entre CMA y CME tiende a implicar aue el efecto principal 



432 Diseño y análisis de experimentos estadísticos 

atríbuible a A es estadísticamente significativo. El mismo argumento es válido para 
el efecto principal de B. 

En la tabla 12.14 se encuentra un resumen del análisis de varíanza para un diseño 
factorial con dos factores. Aunque en la tabla se proporcionan fórmulas de cálculo 
para cada fuente de variación, la práctica usual para realizarlos a mano es calcular 
SCr mediante la fórmula que aparece en la tabla 12.14 y SCTR de la fórmula 



SCTR^SZl* T 



2 

nab 



Entonces puede obtenerse SCE al emplear (12.25). A su vez, mediante el empleo de 
las fórmulas que aparecen en la tabla 12.14 se calculan SCA y SCB, y se obtiene 
SCAB con base en (12.26). 

Ejemplo 12.5 Se llevó a cabo una investigación para determinar si pueden en- 
contrarse diferencias apreciables en los salarios iniciales para contadores graduados 
con base en el sexo, localidad del lugar de trabajo o la interacción de los dos. El estu- 
dio se llevó a cabo en grandes ciudades del noroeste, el oeste medio y el oeste. Se 
piensa que será suficiente un arreglo factorial en un diseño completamente aleatori- 
zado. Se decide emplear los salarios iniciales de cuatro personas para cada una de las 
seis combinaciones de tratamientos. Para asegurar que las unidades experimentales 
son homogéneas, se seleccionaron personas con antecedentes muy similares en la 
medida de lo posible. Tienen la misma edad y el mismo promedio de calificaciones 
durante sus estudios; ninguno tenía experiencia profesional y todos se graduaron en 



TABLA 12.14 Tabla ANOVA para un experimento factorial con dos factores completamen- 
te aleatorizados 



Fuente de 
variación 



gl 



SC 



CM 



Estadística F 



Factor A 



a - I 



nb , nab 



SCA/U/ - 1) 



CMA/CME 



Factor B 



h - I 



rut , nah 



SCB/i/, - |) 



CMB/CME 



Interacción AB (« - ])íb I) 



" I I n " < 
>. T-. + — - 



SCAB/Ui lllfc - I) CMAB/CME 



Error 



(ibt/i I) 



VVE^-n Ti 



SCE/abtn - I) 



Total 



ub - I 



V V V y],, - 



nab 



12.6 Experimentos factoriales 433 
TABLA 12.15 Sálanos iniciales para contadores graduados (miles de dólares) 

Noroeste Oeste medio Oeste Totales 

Mujeres 15.2 14.9 16.2 

15.9 
16.8 
15.8 

T». = 64.7 T. t = 189.1 

Hombres 18.1 17.8 18.4 

16.8 

17.5 | 

18.7 N 

T n = 69.5 ' T 22 .= 71.7 T )2 = 71.4 T 2 . = 212.6 JÍ 

Totales T,.. = 131.9 T 2 = 133.7 7, = 136.1 T... 401.7 



universidades del mismo nivel académico. Con base en la información de la muestra 
proporcionada en la tabla 12.15, determínense cuáles efectos son estadísticamente 
apreciables. 



15.2 


14.9 


16.8 


16.2 


15.5 


15.6 


14.9 


15.3 


62.4 


T„. = 62.0 


18.1 


17.8 


16.3 


18.2 


17.2 


18.1 


17.9 


17.6 



Las sumas de interés aparecen en la tabla. Entonces 

401 7 2 

STC = 15.2 2 + 16.8 2 + — + 18.7 2 — = 32.8563, 

24 

«~™ 62.4 2 + 69.5 2 + ••• + 71.4 2 401 .7 2 „ „„ „ 

SCTR = — = 24.7838, 

4 24 

SCE = 32.8563 - 24.7838 = 8.0725. 
De manera similar, 

SC(SEX) . ■■»•■' ¿"i* - mí . a.,,04. 

12 24 

SC(L0 C) . 13L9 ' + l3 f+ ™* - ^f - I..I. 

De esta forma 

SQLOC x SEX) = 24.7838 - 23.0104 - 1.11 = 0.6634. 

La tabla del análisis de varianza se encuentra en la tabla 12. 16. Con base en esta 
información, puede concluirse que el único efecto discernible estadísticamente en el 
salario inicial se debe al sexo del graduado. 

Debe notarse que el método de Scheffé para comparar las medias del nivel del 
factor se extiende, en forma directa, a experimentos factoriales. También puede 



til 

:: ; ! 
i! i 



434 Diseño y análisis de experimentos estadísticos 
TABLA 12.16 Tabla ANOVA para el ejemplo 12.5 



Fuente de 
variación 


gl 


SC 




CM 


Valor F 


Localidad 

Sexo 

Localidad x sexo 

Error 


2 

1 

2 

18 


1.11 
23.0104 
0.6634 
8.0725 




0.555 

23.0104 

0.3317 

0.4485 


1.24 

51.31 

0.74 


Total 


23 


32.8563 


Aw, 1,18 _ 8.29', /o.99, 2, 


n = 6.01 



efectuarse un análisis de residuos para los niveles de cada factor para verificar, entre 
otras cosas, la hipótesis de varianzas iguales. Los residuos se obtienen mediante el 
empleo de la relación 

" ijk y ¡jk y¡j • 

En los casos que se han examinado hasta este momento, siempre se empleó el 
cuadrado medio del error como el denominador del cociente F. Sin embargo, para 
experimentos estadísticos que incluyen dos o mas factores, lo anterior no siempre es 
válido. La estadística F apropiada para un análisis de varianza depende, en forma 
directa, de las esperanzas de los cuadrados medios de las fuentes de variación, las 
que a su vez dependen de si se consideran a los efectos correspondientes como fijos 
o aleatorios. 

Para experimentos factoriales con dos factores surgen tres situaciones distintas: 
a) los niveles de ambos factores son de efectos fijos; b) los niveles de ambos factores 
son de efectos aleatorios, o c) los niveles de un factor son de efectos fijos mientras 
que los del otro son de efectos aleatorios. Ya se ha analizado la primera posiblidad. 
Para las otras dos, los valores esperados de los cuadrados medios tanto para el mo- 
delo de efectos aleatorios como para el modelo de efectos mixtos se proporcionan en 
la tabla 12.17. 



TABLA 12.17 Esperanzas de cuadrados medios para un factorial con dos factores: modelos 
de efectos aleatorios o de efectos mixtos 





Efectos aleatorios (A y B aleatorios) 


Efectos mixtos (A fijo, B aleatorio) 


Fuente 


ECM Estadística F 


ECM Estadística F 


A 


o- 2 + na-lfi + nbal CMA/CMAB 


a 2 + no-L + nb 1 "' CMA/CMAB 

(a - 1) 


B 


o- 2 + "(rlff + naa¡ CMB/CMAB 


,t 2 + na<r¡ CMB/CME 


AB 


a- 2 + no-ip CMAB/CME 


a 2 + nalp CMAB/CME 


Error 


a' 


a 2 



Ejercicios 435 

Con base en el material de este capítulo, el procedimiento que se ha empleado 
para construir la estadística de prueba es comparar dos cuadrados medios que, bajo 
la hipótesis nula, tengan el mismo valor esperado, y bajo la hipótesis alternativa, el 
IR cuadrado medio del numerador tenga un valor esperado mucho más grande que 

el del denominador correspondiente. Si la hipótesis nula es cierta, la estadística tiene 
una distribución F con un número apropiado de grados de libertad. Con esto en 
mente, los cocientes de cuadrados medios indicados en la tabla 12.17 deben ser ya 
evidentes. Por ejemplo, considérese el caso de efectos aleatorios y, en particular, la 
hipótesis nula de que no existe variación alguna entre todos los posibles niveles de A; 
estoes, H : o- 2 = 0. Si H es cierta, entonces E(CMA) = o- 2 + no- 2 ,,, donde a 2 a/3 
denota la varianza causada por la interacción entre A y B. Pero este valor esperado 
es el mismo sólo para E (CMAB) y no para E (CME) bajo //„. Por otro lado, si 
H es falsa, E (CMA) es-mayor que E (CMAB). De acuerdo con lo anterior, la 
estadística de prueba apropiada para //„ es CMA /CMAB. 

Debe recordarse que en experimentos factoriales, el cuadrado medio del error 
será el denominador en el cociente de cuadrados medios para todos los efectos princi- 
pales y de interacción, sólo si los niveles de todos los factores son d? efectos fijos. De 
esta forma, en la fase de diseño de un experimento estadístico es muy importante la 
selección de los niveles del factor, ya que tienen una influencia directa en el análisis. 



Referencias 

1. W. G. Cochran and G. M. Cox, Experimental designs, 2nd ed., Wiley, New York, 
1957. 

2. R. C. Hicks, Fundamental concepts in the design of experiments, 2nd ed., Holt, 
Rinehart and Winston, New York, 1973. 

3. R. L. Horton, The general linear model, McGraw-Hill, New York, 1978. 

4. R. E. Kirk, Experimental design: Proeedures for the behavioral sciences, Brooks/Cole, 
Belmont, Calif., 1968. 

5. J. Neter and W. Wasserman, Applied linear statistical models, Richard D. Irwin, 
Homewood, 111., 1974. 

6. H. Scheffé, Analysis of variance, Wiley, New York, 1953. 

7. H. Scheffé, A method for judging all contrasts in the analysis of variance, Biometrika 
40(1953), 87-104. 



Ejercicios 

12.1. Suponga que se asigna al lector la responsabilidad de investigar en una fábrica el efecto 
que pueden tener diferentes cambios en la semana de 40 horas de trabajo, sobre la pro- 
ductividad promedio en una gran fábrica. En forma específica, se desean comparar 
cinco días a la semana, 4 días a la semana y 3 'A-días a la semana. Describa con gran de- 
talle su propuesta de diseño estadístico. Asegúrese de identificar los tratamientos, las uni- 
dades experimentales y otros factores importantes para llevar a cabo la investigación. 

12.2. Las estadísticas para accidentes indican que alrededor de dos terceras partes de los ac- 
cidentes automovilísticos de consecuencias fatales en Estados Unidos son causados por 
conductores en estado de ebriedad. Supoga que usted es comisionado para investigar el 



436 Diseño y análisis de experimentos estadísticos 

grado en el que el alcohol afecta la habilidad de las personas para desempeñar fun- 
ciones de rutina al conducir un automóvil. Descríbase con gran detalle un diseño esta- 
dístico para lograr esta tarea e indiquese cómo debe llevarse a cabo este experimento. 

12.3. Una compañía de seguros desea determinar si existen diferencias discernióles en el 
número de días promedio que los pacientes que padecen una misma enfermedad per- 
manecen en cuatro grandes hospitales de cierta área metropolitana. La compañía tam- 
bién está interesada en detectar cualquier efecto debido al sexo de los pacientes. 
Descríbase con detalle un diseño estadístico para lograr este objetivo. Asegúrese de 
identificar la naturaleza de cada factor, ya sea como de efecto fijo o aleatorio; escríbase 
el modelo y establézcase la hipótesis por probar. 

12.4. Una operación de llenado tiene tres máquinas idénticas que se ajustan para vaciar una 
cantidad específica de un producto en recipientes de igual tamaño. Con el propósito de 
verificar la igualdad de las cantidades promedio vaciadas por cada máquina, se toman 
muestras aleatorias, en forma periódica, de cada una. Para un periodo particular, se 
observaron los datos que aparecen en la tabla 12.18. 

TABLA 12.18 Datos de la muestra para el ejercicic 12.4 

Máquina 
ABC 



16 18 19 

15 19 20 

15 19 18 

14 20 20 

19 19 

19 



a) Calcúlese y - y y verifiqúese que la suma de estas desviaciones para toda iyj es 
cero. 

b) Estímese r, para toda j, y verifiqúese que la suma de n¡(y.j - y.) sobre todas las y 
es cero. 

c) Calcúlese, en forma directa, cada una de las tres sumas de cuadrados dadas en la 
expresión 12.8 para verificar que STC = SCTR + SCE. 

d) ¿Existen algunas diferencias estadísticamente significativas en las cantidades pro- 
medio vaciadas por las tres máquinas? Empléese a = 0.05. 

12.5. En el ejercicio 12.4, supóngase que se divide cada observación entre 10. Demuéstrese si 
esta operación tiene algún efecto con las respuestas a las partes c y d. 

12.6. Para el ejercicio 12.4, construyanse constrastes a su elección y empléese el método de 
Scheffé para determinar si éstos son estadísticamente significativos. 

12.7. Se pide a un laboratorio de prueba independiente que compare la durabilidad de 
cuatro diferentes marcas de pelotas de golf. El laboratorio propone un experimento en 
el que se seleccionan, en forma aleatoria ocho pelotas por cada fabricante y se ponen 
en una máquina que golpea cada pelota con una fuerza constante. La medición de inte- 
rés es el número de veces que la máquina golpea la pelota antes de que su recubrimien- 
to externo se rompa. En la tabla 12.19 se encuentra la información que se obtuvo al lle- 
var a cabo el experimento. 



Ejercicios 437 
TABLA 12.19 Datos de la muestra para el ejercicio 12.7 







Marca 






A 


B 




C 


D 


205 


242 




237 


212 


229 


253 




259 


244 


238 


226 




265\ 


229 


214 


219 




229 


272 


242 


251 




218 


255 


225 


212 




262 


233 


209 


224 




242 


224 


204 


247 




234 


245 



a) ¿Existe alguna razón para creer que la durabilidad promedio es diferente para 
cada una de las cuatro marcas? Úsese a — 0.05. 

b) ¿Existe alguna razón p~ra <^idar de la suposición de que las varíanzas de los errores 
son iguales? 

12.8. Para determinar si existen diferencias en la cosecha promedio de tres variedades de 
maíz, se dividió en tres partes iguales un área para siembra. A su vez, cada una de estas 
partes se subdivide en otras cinco iguales entre sí, y se siembra cada una con una va- 
riedad de maíz. En el momento de la cosecha, la medición de interés es el número de 
toneladas por acre. La tabla 12.20 es una tabla de análisis de varianza incompleta para 
este problema. 

TABLA 12.20. Tabla parcial ANOVA para el ejercicio 12.8 

Fuente gl SC CM Valor F 

Tratamientos 64 

Error 

Total 100 

a) Escríbase el modelo para este problema. 

b) ¿Se está satisfecho con las suposiciones? Hágase un comentario. 

c) Establézcase la hipótesis nula por probar. 

d) Complétese la tabla ANOVA y determínese si puede rechazarse la hipótesis nula 
para un nivel a = 0.01. 

12.9. Se desea determinar si la cantidad de carbón empleado en la fabricación de acero 
tiene algún efecto en la resistencia a la tensión de éste. Se investigaron cinco diferentes 
porcentajes de carbón: 0.2, 0.3, 0.4, 0.5 y 0.6%. Para cada porcentaje de carbón se 
seleccionaron, en forma aleatoria del mismo iote, cinco muestras de acero y se mi- 
dieron tas resistencias a la tensión. Se obtuvo la información que se muestra en la tabla 
12.21, donde la tensión se encuentra en kilogramos por centímetro cuadrado. 

á) Con base en esta información, determínese si el porcentaje de carbón tiene un 
efecto estadísticamente significativo sobre la resistencia a la tensión del acero. Úsese 
a = 0.01. 

b) Si la respuesta a ta parte a es afirmativa, propónganse los contrastes relevantes y 
pruébese su significancia estadística. 



m 



4.» Diseño y análisis de experimentos estadísticos 

TABLA 12.21 Datos de la muestra para el ejercicio 12.9 







Contenido de carbón 






0.2% 


0.3% 


0.4% 


0.5% 


0.6% 


1240 


1420 


1480 


1610 


1700 


1350 


1510 


1470 


1590 


1790 


1390* 


1410 


1520 


1580 


1740 


1280 


1530 


1540 


1630 


1810 


1320 


1470 


1510 


1560 


1730 



12.10. En el ejercicio 12.9, ¿existe alguna razón para dudar de la suposición de varianzas 
iguales? 

12.11. Se seleccionó una muestra al azar de un número de presidentes de compañías, en 
cuatro diferentes áreas geográficas de Estados Unidos, con el propósito de determinar 
si el área tiene algún efecto sobre los ingresos anuales de estos altos ejecutivos. Se ob- 
servaron los salarios anuales que se muestran en la tabla 12.22. Con la información 
uada, proporciónese un argumento, ya sea en contra o a favor, de si debe utilizarse la 
técnica del análisis de varianza para determinar si el área tiene algún efecto sobre el 
ingreso anual. Trátese de dar un apoyo sustancial en cualquiera de los dos casos. 

TABLA 12.22 Datos de la muestra para el ejercicio 12.1 1 (miles de dólares) 

Área 
Noreste Oeste medio Sureste Oeste 

140 93 78 85 

125 135 112 72 

95 68 57 97 

110 53 97 105 

59 115 52 62 



12.12. En una planta industrial se desea determinar si diferentes trabajadores con el mismo 
nivel de habilidad tienen algún efecto sobre el número de unidades que se espera que 
produzcan durante un periodo fijo. Se lleva a cabo un experimento en el que se selec- 
cionan al azar cinco trabajadores y se observa el número de unidades que cada uno 
produce en seis periodos con la misma duración, produciéndose los resultados que se 
encuentran en la tabla 12.23. 



TABLA 12.23 Datos de la muestra para el ejercicio 12.12 







Trabajador 






1 


2 


3 


4 


5 


45 


52 


39 


57 


48 


47 


55 


37 


49 


44 


43 


58 


46 


52 


55 


48 


49 


45 


50 


53 


50 


47 


42 


48 


49 


44 


57 


41 


55 


52 



Ejercicios 439 

a) Escríbase el modelo para este problema y expliqúese cada término. 

b) Establézcase la hipótesis nula por probar. 

c) Determínese si puede rechazarse la hipótesis nula para un nivel a = 0.05. 

d) ¿Qué fracción de la variánza en el número de unidades producidas es atribuible a di- 
ferencias entre los trabajadores? 

12.13. Desde el incremento en los precios de la gasolina se han desarrollado varios dispositi- 
vos, los cuales se colocan en los carburadores de los automóviles, con el propósito de 
aumentar el rendimiento de éstos. Una empresa selecciona tres de los dispositivos más 
populares para someterlos a prueba. La empresa desea compararlos con los carburado- 
res estándar, con el propósito de determinar si existe un incremento apreciable de 
millas por galón de gasolina con el uso de estos dispositivos. La compañía selecciona 
cinco tipos de automóviles para el experimento. Para controlar la variación, se planea 
utilizar el mismo conductor para todo el experimento. 

TABLA 12.24 Datos de la muestra para el ejercicio 12.13 (millas por galón) 





Carburador 








Automóvil 


estándar 


Dispositivo A 


Dispositivo B 


Dispositivo C 


1 


18.2 


18.9 


19.1 


20.4 


2 


27.4 


27.9 


28.1 


29.9 


3 


35.2 


34.9 


35.8 


38.2 


4 


14.8 


15.2 


14.9 


17.3 


5 


25.4 


24.8 


25.6 


26.9 



a) Hágase un bosquejo del plan específico para realizar este experimento. 

b) Supóngase que se observan los datos que se encuentran en la tabla 12.24. Escríbase 
el modelo y establézcase la hipótesis nula por probar. ¿Puede rechazarse la hipótesis 
nula para un nivel a = 0.05. 

c) Si se rechaza la hipótesis nula de la parte b, construyanse por lo menos dos contras- 
tes relevantes y pruébese su significancia estadística. 

12.14. En el ejercicio 12.13, supóngase que no se ha considerado el automóvil como una fuen- 
te viable de variación en el rendimiento observado y muéstrese si esta omisión tiene al- 
gún efecto con la respuesta a la parte b. 

12.15. Los cigarrillos producen cantidades apreciables de monóxido de carbono. Cuando se 
inhala el humo del cigarrillo, el monóxido de carbono se combina con la hemoglobina 
para formar carboxihemoglobina. En un estudio reciente,* los investigadores deseaban 
determinar si una concentración apreciable de carboxihemoglobina reduce la toleran- 
cia al ejercicio en aquellos pacientes que sufren de bronquitis crónica y enfisema. Se se- 
leccionaron siete** de estos pacientes y, en un ambiente controlado, se les pidió que 
caminaran durante 12 minutos respirando una de las siguientes cuatro mezclas gaseo- 
sas: aire, oxígeno, aire más monóxido de carbono (CO) u oxígeno más monóxido de 
carbono. La cantidad de monóxido de carbono respirado fue suficiente para elevar la 
concentración de carboxihemoglobina de cada sujeto en 99b. Para controlar el consu- 
mo de monóxido de carbono, se pidió a los siete fumadores que dejaran de fumar 12 

*P. M. A.Calverly, R. J. E. Leggett, and D. C. Flenley, Carbón monoxide andexerci.se tolerante 
in chronic bronchitis and emphysema, Brit. Med. J. 283 (1981), 877-880. 
El estudio completo se llevó a cabo con 15 sujetos. 



• • 



440 Diseño y análisis de experimentos estadísticos 



horas antes del experimento. Los datos que figuran el la tabla 12.25 representan las dis- 
tancias caminadas por los sujetos en 12 minutos para cada condición. 

TABLA 12.25 Datos de la muestra para el ejercicio 12.15 (en litros) 



Sujeto 



Aire 



Mezcla gaseosa 
Oxígeno Aire + 



CO 



1 


835 


874 


750 


2 


787 


827 


755 


3 


724 


738 


698 


4 


336 


378 


210 


5 


252 


315 


168 


6 


560 


672 


558 


7 


336 


341 


260 



Oxigeno + CO 



854 
829 

726 
279 
336 
642 
336 



a) Escribase el modelo para este problema. 

b) ¿Puede rechazarse la hipótesis nula de que no existe algún efecto, debido a la 
mezcla de gas, en la distancia caminada durante el lapso de 12 minutos para un 
nivel de a = 0.05 ? 

c) Llévese a cabo una prueba F conservadora para la hipótesis nula. ¿Es la conclusión 
diferente a la de la parte bt 

d) Si la respuesta a la parte b es sí, construyanse los contrastes pertinentes y empléese 
el método de Scheffé para determinar si éstos son estadísticamente significativos. 

12.16. Se desea determinar si existen diferencias apreciables en los precios promedio entre 
cuatro grandes supermercados en una ciudad dada. De los artículos de la misma marca 
que se venden con regularidad, se seleccionan al azar 10 y se observan sus precios uni- 
tarios en cada supermercado. Se obtiene la información que figura en la tabla 12.26. 

a) Escríbase el modelo para este problema. 

b) Establézcase una hipótesis nula apropiada y determínese si ésta puede rechazarse 
para un nivel de a = 0.01 . 

c) Determínense todos los residuos y hágase la gráfica de éstos para cada tratamiento y 
para cada bloque. Hágase un comentario sobre sus resultados. 



TABLA 12.26 Datos de la 


muestra para el 


ejercicio 


12.16 (en dólares) 




Artículo 


A 


Supermercado 
B C 


D 


1 


3.29 


3.42 




3.27 


3.35 


2 


0.59 


0.65 




0.59 


0.60 


3 


1.25 


1.29 




1.25 


1.27 


4 


4.35 


4.59 




4.29 


4.49 


5 


0.89 


0.95 




0.89 


0.89 


6 


1.85 


1.79 




1.89 


1.89 


7 


0.95 


0.89 




0.89 


0.90 


8 


0.75 


0.79 




0.69 


0.79 


9 


2.35 


2.35 




2.39 


2.39 


10 


1.49 


1.55 




1.55 


1.49 



12.17. En el ejemplo que sirvió como introducción en la sección 12.6, supóngase que se selec- 
cionan en forma aleatoria 1 2 componentes del mismo lote y en grupos de tres se asig- 



Ejercicios 441 

nan a las cuatro combinaciones de hornos y temperaturas. Los tiempos de duración de 
los componentes se encuentran en la tabla 12.27. 

TABLA 12.27 Datos de la muestra para el 
ejercicio 12.17 (en horas) 

O, O z 



6.29 


5.95 


6.38 


6.05 


6.25 


5.89 


5.80 


6.32 


5.92 


6.44 


5.78 


6.29 



a) Escríbase el modelo apropiado para este problema. 

b) Establézcase la hipótesis por probar. 

c) Determínese la tabla del análisis de varianza y obténganse conclusiones apropiadas. 
Empléese a = 0.05. 

12.18. En el ejercicio 12.3, supóngase que se obtuvo la información proporcionada en la tabla 
12.28 para pacientes seleccionados al azar, que padecen la misma enfermedad. 

TABLA 12.28 Datos de ta muestra para el ejercicio 12.18. Duración de la hospitalización en días en 
cuatro hospitales. 





Hospital A 


Hospital B 


Hospital C 


Hospital D 


Hombres 


7 


9 


10 


6 




10 


9 


8 


7 




8 


12 


12 


6 




11 


14 


13 


9 


Mujeres 


9 


II 


13 


8 




12 


12 


11 


9 




12 


14 


14 


8 




11 


13 


14 


10 



a) Determínese qué efectos son estadísticamente discernibles a un nivel de a = 0.0! . 

b) Determínense todos los residuos y hágase la gráfica de éstos para cada hospital. 
¿Qué conclusión puede dar? 

12.19. El objetivo de un experimento de agricultura fue determinar si existían diferencias apre- 
ciables en la cantidad de trigo cosechado, de entre cuatro variedades y tres tipos de fer- 
tilizantes. Para el experimento se encontró una área muy grande de siembra en la que 
las condiciones del suelo eran, prácticamente, homogéneas. El área fue dividida en 12 
zonas de igual tamaño para las 12 combinaciones de variedad de trigo y tipo de fertili- 
zante. Para medir el error experimental, cada zona se dividió a su vez en cuatro y cada 
una de éstas recibió el mismo tratamiento. Las tres" clases de fertilizante se selecciona- 
ron, en forma aleatoria, de entre un número relativamente grande de fertilizantes, pero 
el interés no se extendió más allá de las cuatro variedades de trigo seleccionadas para el 
experimento. En el momento de la cosecha se observaron los datos que aparecen en la 
tabla 12.29. 



, 



442 Diseño y análisis de experimentos estadísticos 



TABLA 12.29 Datos de la muestra para el ejercicio 12.19 
(toneladas por acre) 







Variedad de trigo 




Fertilizante 


A 


B 


C 


D 


1 


35 


45 


24 


55 


l 


26 


39 


23 


48 




38 


39 


36 


39 




20 


43 


29 


49 


2 


55 


64 


58 


68 




44 


57 


74 


61 




68 


62 


49 


60 




64 


61 


69 


75 


3 


97 


93 


89 


82 




89 


91 


98 


78 




92 


82 


85 


89 




99 


98 


87 


92 



a) Escríbase el modelo apropiado para este problema. 

b) Establézcase la hipótesis nula por probar. 

c) Determínese la tabla de análisis de varianza y obténganse las conclusiones apro- 
piadas. Úsese a = 0.05. 

12.20. En el ejercicio 12.19, ¿Cómo puede cambiar la respuesta a la parte c, si 

a) ¿Se supone que las variedades son de efectos aleatorios, y los tipos de fertilizante 
son de efectos fijos? 

b) ¿Se supone que ambos son de efectos fijos? 

c) ¿Se supone que ambos son de efectos aleatorios? 



CAPITULO TRECE 



Análisis de regresión: 
el modelo lineal simple 



13.1 Introducción 

En el capítulo anterior se desarrollaron los criterios básicos para el diseño estadístico 
de experimentos. En este capítulo se examinarán las asociaciones cuantitativas entre 
un número de variables, lo que en la terminología estadística se conoce como análisis 
de regresión. 

Aunque en muchas disciplinas se están realizando experimentos diseñados en 
forma estadística, la precisión en la comparación que en forma general se requiere, 
evita el empleo de estos diseños en muchas situaciones. Investigar el efecto simultá- 
neo de varios factores con base en las técnicas del análisis de varianza requiere de la 
suposición de que los datos se han colectado en arreglos balanceados y que se lleva- 
ron a efecto los procedimientos de aleatorización adecuados. En forma obvia, lo an- 
terior es deseable si puede cumplirse, pero muchas veces es impráctico. En realidad, 
a lo que en general se enfrenta el experimento es a un conjunto de datos que de mane- 
ra común, no espera que hayan sido observados bajo condiciones estrictamente con- 
troladas y los que, salvo en ciertas ocasiones, no contienen ninguna réplica real que 
permita una estimación apropiada del error experimental. Bajo estas condiciones, 
los métodos más apropiados son el de mínimos cuadrados y el análisis de regresión, 
y no los del análisis de varianza. 

El propósito de este capítulo radica en proporcionar los conceptos y metodología 
básicos para extraer de grandes cantidades de datos las características principales de 
una relación que no es evidente. De manera específica, se examinarán técnicas que 
permitan ajustar una ecuación de algún tipo al conjunto de datos dado, con el pro- 
pósito de obtener una ecuación empírica de predicción razonablemente precisa y que 
proporcione un modelo teórico que no está disponible. Se supondrá la existencia de 
un conjunto de n mediciones y, , y 2 , -•, y„ de una variable respuesta Y, las cuales 
se han observado bajo un conjunto de condiciones experimentales (jc, , x 2 , ..., x k ) 
que representan los valores de k variables de predicción. El interés recae en determi- 
nar una función matemática sencilla, por ejemplo un polinomio que describa, en 



444 Análisis de regresión: el modelo lineal simple 

forma razonable, el comportamiento de la variable respuesta, dados los valores de 
las variables de predicción. Nótese que la ecuación que se obtiene por esta forma 
puede tener algunas limitaciones con respecto a su interpretación física; sin embar- 
go, en un medio empírico, será muy útil si puede proporcionar una adecuada capaci- 
dad de predicción para la respuesta en el interior de una región especificada de las 
variables de predicción. 

A pesar de que no se encuentra problema alguno con las designaciones comunes de 
variable dependiente e independiente para Y y x, respectivamente, se preferirá deno- 
minarlas como variable de respuesta y de predicción, ya que en la regresión sólo 
puede asociarse un valor de Y con uno de predicción x; no es posible establecer una 
relación causa-efecto entre la Y - y las x. Algunos ejemplos proporcionarán una idea 
del por qué obtener una relación causa-efecto se encuentra más allá del alcance del 
análisis de regresión. De manera obvia, existe una relación entre la altura y el peso 
de los seres humanos, pero ¿implic